豆包大模型是字节跳动推出的AI大模型家族,包括 豆包PixelDance、豆包Seaweed 视频生成、文生图、图生图、同声传译、角色扮演、语音合成、声音复刻、语音识别、Function Call和向量化等多个模型。豆包大模型具备强大的语言理解、生成和逻辑能力,能进行个性化创作、情绪丰富的语音合成、高精度语音识别、多风格图像生成和顶级的视频生成。
智能语音旗舰应用,无障碍语言记录与交流。汉王语音王官网入口网址
音频指令演示,体验智能交互。Qwen2 Audio Instruct Demo官网入口网址
Dexa AI 是AI播客搜索工具,基于先进的索引技术,为用户在众多播客中快速找到所需内容。用户可向特定主播提问或搜索跨节目话题,结果以 AI 总结形式呈现,并提供时间戳链接。Dexa AI 致力于提升播客内容的可访问性。
DuRT 是一款 macOS 上的实时语音识别和翻译软件,致力于提供高效、准确的语音处理服务。
开源的工业级普通话自动语音识别模型,支持多种应用场景。
构建高级语音AI,由LLM提供支持,实现人类般的交互体验。
极速语音识别,精准时间戳
AI驱动的语音听写工具
Android平台上的私有、设备端语音识别键盘和文字服务
AI代理测试和评估平台
基于OpenAI Whisper的自动语音识别与说话人分割,whisper-diarization官网入口网址
最新多模态检查点,提升语音理解能力。Llama3-s v0.2官网入口网址
Santa 2023是一款多功能的智能设备,集成了语音识别、图像识别、智能推荐等多种功能,为用户提供了全方位的智能体验,沃研Turbo大模型官网入口网址
Scribe 是全球最准确的语音转文字模型,支持99种语言。
开源工业级自动语音识别模型,支持普通话、方言和英语,性能卓越。
与大型语言模型进行自然的语音对话
沟通无界,让每次对话都创造价值。
情感丰富的多模态语言模型
会议语音转文本并自动生成摘要的AI工具
多模态语言模型,融合文本和语音
端侧全模态理解开源模型
多模态语音大型语言模型
端到端中英语音对话模型
一个具有先进语音活动检测、唤醒词激活和即时转录功能的稳健、高效、低延迟的语音到文本库。
Whisper Turbo 是一款免费在线快速准确的语音识别工具。
打造各类智能云服务器、智能终端以及智能机器人的核心处理器芯片,寒武纪官网入口网址
通过语音识别、图片识别、大语言模型等技术,帮助医生自动生成病历,提升病历书写效率和质量,同时保护患者隐私,全诊通Aioclinic官网入口网址
让应用通过语音与文本的转换实现智能交互。
基于大型语言模型的语音识别技术。
开源的语音识别和说话人分割模型推理代码
AI驱动的语音笔记应用,将语音转换为有组织的摘要和清晰的行动项。
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适