音频指令演示,体验智能交互。Qwen2 Audio Instruct Demo官网入口网址
将文本转换为逼真语音的在线工具
将文本转换为自然流畅的语音输出
高精度视频唇形同步技术
基于羊驼模型的大型语音生成模型,LlamaVoice官网入口网址
Sesame AI 是一款先进的语音合成平台,能够生成自然对话式语音并具备情感智能。
基于Llama框架的TTS基础模型,兼容16万小时标记化语音数据。
开源的工业级普通话自动语音识别模型,支持多种应用场景。
PengChengStarling 是一个基于 icefall 项目的多语言自动语音识别(ASR)模型开发工具包。
LLaSA: 扩展基于 LLaMA 的语音合成的训练时间和测试时间计算量
实验室数字化助手,提升科研效率。
极速语音识别,精准时间戳
基于深度学习的高质量文本到语音合成模型
AI驱动的语音听写工具
AI语音转文字助手,支持99种语言
Android平台上的私有、设备端语音识别键盘和文字服务
开源、注重隐私的语音助手
基于OpenAI Whisper的自动语音识别与说话人分割,whisper-diarization官网入口网址
最新多模态检查点,提升语音理解能力。Llama3-s v0.2官网入口网址
Alexa+ 是亚马逊推出的下一代智能语音助手,通过生成式 AI 提供更智能、个性化的服务。
工业级可控高效的零样本文本到语音系统
Scribe 是全球最准确的语音转文字模型,支持99种语言。
为酒店提供多语言AI语音代理,提升客户体验并降低运营成本。
一款为 Apple Watch 设计的智能语音助手应用,无需手机即可完成多种操作。
开源工业级自动语音识别模型,支持普通话、方言和英语,性能卓越。
Whisper Input 是一个通过按键控制语音录制并快速转译的工具。
AI语音代理测试与可观测性平台
MiniCPM-o 2.6是一个强大的多模态大型语言模型,适用于视觉、语音和多模态直播。
通过语音触发Zapier自动化流程。
语音转文字的智能助手
个性化AI唤醒服务,助你早起。
与大型语言模型进行自然的语音对话
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适