语音识别

Qwen2 Audio Instruct Demo

音频指令演示，体验智能交互。Qwen2 Audio Instruct Demo官网入口网址

AI语音合成【标贝科技】

标贝科技-专业AI语音服务的人工智能开放平台，提供语音识别、语音合成、语音拓展、图像标注等人工智能服务，为全行业开发者提供智能语音API接口，智能语音SDK，一站式人工智能语音交互技术方案!，AI语音合成【标贝科技】官网入口网址

心辰Lingo语音大模型

沟通无界，让每次对话都创造价值。

hertz-dev

开源的全双工音频生成基础模型

Dexa AI

Dexa AI 是AI播客搜索工具，基于先进的索引技术，为用户在众多播客中快速找到所需内容。用户可向特定主播提问或搜索跨节目话题，结果以 AI 总结形式呈现，并提供时间戳链接。Dexa AI 致力于提升播客内容的可访问性。

Seed-ASR

基于大型语言模型的语音识别技术。

Voice Assistant Plugin for GPT

语音助手插件，提升GPT交互体验，Voice Assistant Plugin for GPT官网入口网址

寒武纪

打造各类智能云服务器、智能终端以及智能机器人的核心处理器芯片，寒武纪官网入口网址

全诊通Aioclinic

通过语音识别、图片识别、大语言模型等技术，帮助医生自动生成病历，提升病历书写效率和质量，同时保护患者隐私，全诊通Aioclinic官网入口网址

NotesGPT

AI驱动的语音笔记应用，将语音转换为有组织的摘要和清晰的行动项。

WeST

300行代码实现基于LLM的语音转录。WeST官网入口网址

Encounter AI Advisor

智能语音分析，提升零售客户服务体验。Encounter AI Advisor官网入口网址

Mumble Note

让Mumble Note将您的会议、任务、想法和快速笔记立即转换为笔记、待办事项和输出。

AI-Powered Meeting Summarizer

会议语音转文本并自动生成摘要的AI工具

Reverb

开源的语音识别和说话人分割模型推理代码

whisper-ner-v1

联合语音转录和实体识别的先进模型

豆包大模型

豆包大模型是字节跳动推出的AI大模型家族，包括豆包PixelDance、豆包Seaweed 视频生成、文生图、图生图、同声传译、角色扮演、语音合成、声音复刻、语音识别、Function Call和向量化等多个模型。豆包大模型具备强大的语言理解、生成和逻辑能力，能进行个性化创作、情绪丰富的语音合成、高精度语音识别、多风格图像生成和顶级的视频生成。