基于Llama框架的TTS基础模型,兼容16万小时标记化语音数据。
音刻转录是一款快速、精准、丝滑的音视频转录工具。
Whisper Turbo 是一款免费在线快速准确的语音识别工具。
将文本转换为自然流畅的语音输出
TypeScript客户端,用于OpenAI的实时语音API。
AI技术实现语音转文字和内容总结的应用
Scribe 是全球最准确的语音转文字模型,支持99种语言。
PengChengStarling 是一个基于 icefall 项目的多语言自动语音识别(ASR)模型开发工具包。
将文本转换为逼真语音的在线工具
极速语音识别,精准时间戳
AI语音转文字助手,支持99种语言
Android平台上的私有、设备端语音识别键盘和文字服务
音频指令演示,体验智能交互。Qwen2 Audio Instruct Demo官网入口网址
基于羊驼模型的大型语音生成模型,LlamaVoice官网入口网址
Sesame AI 是一款先进的语音合成平台,能够生成自然对话式语音并具备情感智能。
一款为 Apple Watch 设计的智能语音助手应用,无需手机即可完成多种操作。
LLaSA: 扩展基于 LLaMA 的语音合成的训练时间和测试时间计算量
通过语音触发Zapier自动化流程。
沟通无界,让每次对话都创造价值。
会议语音转文本并自动生成摘要的AI工具
基于深度学习的高质量文本到语音合成模型
AI驱动的语音听写工具
开源AI语音处理工具包,支持语音增强、分离和目标说话人提取。
高效、多语种的语音合成模型
与任何大型语言模型进行快速的免提语音交互。Open-LLM-VTuber官网入口网址
致力于通过自然语音技术,打造个人语音伴侣和全天候可穿戴轻量级眼镜设备。
开源的工业级普通话自动语音识别模型,支持多种应用场景。
AI语音代理测试与可观测性平台
MiniCPM-o 2.6是一个强大的多模态大型语言模型,适用于视觉、语音和多模态直播。
语音转文字的智能助手
让应用通过语音与文本的转换实现智能交互。
与大型语言模型进行自然的语音对话
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适