Spark-TTS 是一种基于大语言模型的高效单流解耦语音合成模型。
Scribe 是全球最准确的语音转文字模型,支持99种语言。
一个提供语音克隆和AI语音内容创作的平台。
Soro是将会议语音自动转文字的AI会议记录助手。
AI驱动的语音听写工具
Android平台上的私有、设备端语音识别键盘和文字服务
领先的语音数据隐私解决方案
基于LLM的智能字幕助手,一键生成高质量视频字幕
前沿AI研究和产品公司,推动通信未来。Gan.AI官网入口网址
个性化AI助手,记录每一刻,与AI对话获取反馈。Omi AI官网入口网址
Sesame AI 是一款先进的语音合成平台,能够生成自然对话式语音并具备情感智能。
MiniCPM-o 2.6是一个强大的多模态大型语言模型,适用于视觉、语音和多模态直播。
通过语音触发Zapier自动化流程。
精确到词级的自动语音识别模型
将任何PDF文档转换成播客节目。
声音AI分析工具,优化语音助手性能
AI技术实现语音转文字和内容总结的应用
基于OpenAI Whisper的自动语音识别与说话人分割,whisper-diarization官网入口网址
个性化语音克隆工具,实现自然语音生成。ChatTTS-OpenVoice官网入口网址
AI驱动的个人电脑助手,PC Agent官网入口网址
免费的 AI 播客生成工具,支持多种格式文件。
GGAssist提供AI游戏伙伴、AI语音变声等广泛的AI游戏工具。
FoloUp 是一个用于招聘的 AI 驱动语音面试平台。
开源的工业级普通话自动语音识别模型,支持多种应用场景。
一个具有先进语音活动检测、唤醒词激活和即时转录功能的稳健、高效、低延迟的语音到文本库。
将文本转换为逼真语音的在线工具
实验室数字化助手,提升科研效率。
轻量级端到端文本到语音模型
实时语音和视频AI平台
使用Llama模型的语音合成工具
开源的语音识别和说话人分割模型推理代码
使用OpenAI实时API与文档进行语音聊天
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适