开源多模态大型语言模型,支持实时语音输入和流式音频输出。Mini-Omni官网入口网址
音频指令演示,体验智能交互。Qwen2 Audio Instruct Demo官网入口网址
沟通无界,让每次对话都创造价值。
开源的全双工音频生成基础模型
Dexa AI 是AI播客搜索工具,基于先进的索引技术,为用户在众多播客中快速找到所需内容。用户可向特定主播提问或搜索跨节目话题,结果以 AI 总结形式呈现,并提供时间戳链接。Dexa AI 致力于提升播客内容的可访问性。
语音助手插件,提升GPT交互体验,Voice Assistant Plugin for GPT官网入口网址
打造各类智能云服务器、智能终端以及智能机器人的核心处理器芯片,寒武纪官网入口网址
300行代码实现基于LLM的语音转录。WeST官网入口网址
智能语音分析,提升零售客户服务体验。Encounter AI Advisor官网入口网址
AI驱动的语音笔记应用,将语音转换为有组织的摘要和清晰的行动项。
豆包大模型是字节跳动推出的AI大模型家族,包括 豆包PixelDance、豆包Seaweed 视频生成、文生图、图生图、同声传译、角色扮演、语音合成、声音复刻、语音识别、Function Call和向量化等多个模型。豆包大模型具备强大的语言理解、生成和逻辑能力,能进行个性化创作、情绪丰富的语音合成、高精度语音识别、多风格图像生成和顶级的视频生成。
让Mumble Note将您的会议、任务、想法和快速笔记立即转换为笔记、待办事项和输出。
Phi-4-multimodal-instruct 是微软开发的轻量级多模态基础模型,支持文本、图像和音频输入。
基于大型语言模型的语音识别技术。
会议语音转文本并自动生成摘要的AI工具
开源的语音识别和说话人分割模型推理代码
AI驱动的语音听写工具
联合语音转录和实体识别的先进模型
最新多模态检查点,提升语音理解能力。Llama3-s v0.2官网入口网址
将口语转化为优雅文字的AI写作工具,让写作变得轻松自然。
通过语音识别、图片识别、大语言模型等技术,帮助医生自动生成病历,提升病历书写效率和质量,同时保护患者隐私,全诊通Aioclinic官网入口网址
实时语音交互的人工智能对话系统。LSLM官网入口网址
基于OpenAI Whisper的自动语音识别与说话人分割,whisper-diarization官网入口网址
亚马逊全新基础模型理解语气、语调与节奏,提升人机对话自然度。
端侧全模态理解开源模型
多模态语音大型语言模型
爱解析提供高精度AI音频转文字、视频转文字、录音转文字服务,支持多语言翻译,一键生成会议纪要,准确率高达98%,免费试用!
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适