视频分析工具,结合Llama视觉模型和OpenAI Whisper进行本地视频描述生成。
ElevenReader Publishing 是一个零成本将书籍快速转化为专业有声书并全球分发的平台。
JoyGen 是一种音频驱动的 3D 深度感知的说话人脸视频编辑技术。
沉浸式音频导览,让每个地标自己说话
为无声视频生成逼真且同步的声音。
端到端音频驱动的人体动画框架
Loopy,仅凭音频驱动肖像头像,实现逼真动态。
快速获取书籍摘要和音频,提升学习效率。
将PDF文件转换为音频播客、讲座、摘要等
一个全面的AI神经网络工具目录
集成Firecrawl的OpenAI实时API控制台
高分辨率、长时音频驱动的人像图像动画技术
一个用于说话人分割的工具包
下一代语音AI,提供卓越的音频数据处理能力。
快速生成个性化和富有表现力的3D会说话面部模型
EchoMimicV2:实现逼真、简化、半身人体动画的技术。
播客分享平台,发现热门播客节目。
本地部署的AI语音工具箱,支持语音识别、转录和转换。Easy Voice Toolkit官网入口网址
AI生成语音音频的本地化水印技术
一个用于生成播客及其他音频文件转录文本的工具,支持多种语言模型和语音识别API。
Maidio 是一款将 RSS 新闻内容通过 AI 转化为对话式播客的智能应用。
AI生成独特音效,简化音频制作流程。Simplify Your Audio Production官网入口网址
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适