Wan2.1 是一款开源的先进大规模视频生成模型,支持多种视频生成任务。
开源的工业级普通话自动语音识别模型,支持多种应用场景。
DeepSeek-R1-Zero 是一款通过大规模强化学习训练的推理模型,无需监督微调即可实现卓越推理能力。
DeepSeek-R1-Distill-Qwen-32B 是一款高性能的开源语言模型,适用于多种文本生成任务。
一款文本转语音工具,帮助您轻松阅读文本。
DeepSeek-R1-Distill-Llama-8B 是一个高性能的开源语言模型,适用于文本生成和推理任务。
本地运行的人工智能代理,无缝自动化工程任务。
高分辨率、高效率的文本到图像生成框架
一键生成海量模板,支持SaaS多开的全开源系统,站长团购AI PPT系统官网入口网址
将电子书转换为有声书的工具。
YuE是一个开源的音乐生成模型,能够将歌词转化为完整的歌曲。
实时浏览器端语音识别应用
音频采样器,创造音乐节奏
基于大型语言模型的高性能MacOS聊天应用,ChatMLX官网入口网址
一个开源的GUI音频书和配音生成器。Pandrator官网入口网址
多功能文本到多模态内容生成框架,Alpha-VLLM官网入口网址
高性能火车票查询后端系统,支持官方实时数据服务。
一个可以在一次传递中生成超逼真的对话的 TTS 模型。
增强文本与视觉任务处理能力的开源模型。
开源工业级自动语音识别模型,支持普通话、方言和英语,性能卓越。
中英双语对话模型 ChatGLM-6B,支持在单张消费级显卡上进行推理使用,支持中英双语问答的对话语言模型,并针对中文进行了优化,清华开源模型ChatGLM-6B可本地官网入口网址
一款专注于 AI 翻译的工具,支持多种文本格式的翻译。
强大的开源Kimi K2聊天平台,通过Kimi AI在编程和数学基准测试中超越GPT-4。企业级Kimi AI,成本降低95%。
为Firefox浏览器翻译功能优化的CPU加速神经机器翻译模型。
一个具有先进语音活动检测、唤醒词激活和即时转录功能的稳健、高效、低延迟的语音到文本库。
AI驱动的开源笔记/研究平台,尊重您的隐私。
开源的先进语言模型后训练框架
极速语音识别,精准时间戳
AI时代的视频编辑工具,Clapper.app官网入口网址
Pusa 是一个新颖的视频扩散模型,支持多种视频生成任务。
PengChengStarling 是一个基于 icefall 项目的多语言自动语音识别(ASR)模型开发工具包。
AI语音代理测试与可观测性平台
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适