语音处理 - 第 7 页 - Home

语音处理

AI驱动的个人电脑助手，PC Agent官网入口网址

功能强大的语音离线文件转写服务

Say My Name!

趣味语音互动，让设备记住你的名字。Say My Name!官网入口网址

使用AI技术自动记录和转录会议内容。Minutes AI官网入口网址

开源的工业级普通话自动语音识别模型，支持多种应用场景。

Spark-TTS 是一种基于大语言模型的高效单流解耦语音合成模型。

将电子书转换为有声书的工具。

RealtimeSTT

一个具有先进语音活动检测、唤醒词激活和即时转录功能的稳健、高效、低延迟的语音到文本库。

Soro是将会议语音自动转文字的AI会议记录助手。

一款文本转语音工具，帮助您轻松阅读文本。

Moonshine Web

实时浏览器端语音识别应用

开源多模态大型语言模型，支持实时语音输入和流式音频输出。Mini-Omni官网入口网址

工业级可控高效的零样本文本到语音系统

FireRedASR-AED-L

开源工业级自动语音识别模型，支持普通话、方言和英语，性能卓越。

PengChengStarling

PengChengStarling 是一个基于 icefall 项目的多语言自动语音识别（ASR）模型开发工具包。

AI语音代理测试与可观测性平台

OmniSenseVoice

极速语音识别，精准时间戳

卡卡字幕助手

基于LLM的智能字幕助手，一键生成高质量视频字幕

统一的开放命名实体和语音识别模型

免费的 AI 播客生成工具，支持多种格式文件。

多模态语言模型，融合文本和语音

Transcribro

Android平台上的私有、设备端语音识别键盘和文字服务

一个用于生成对话式语音的模型，支持从文本和音频输入生成高质量的语音。

OpenVoiceChat

与大型语言模型进行自然的语音对话

情感丰富的多模态语言模型

MiniCPM-o-2_6

MiniCPM-o 2.6是一个强大的多模态大型语言模型，适用于视觉、语音和多模态直播。

音刻转录是一款快速、精准、丝滑的音视频转录工具。

ElevenLabs Scribe

Scribe 是全球最准确的语音转文字模型，支持99种语言。

基于Llama框架的TTS基础模型，兼容16万小时标记化语音数据。

Dictate Buddy

AI语音转文字助手，支持99种语言

领先的语音数据隐私解决方案

kokoro-onnx

基于Kokoro和ONNX运行时的文本到语音（TTS）项目。

1…5 678 9…11