开源的语音识别和说话人分割模型推理代码
Qwen2.5-Coder系列中的7B参数代码生成模型
Qwen2.5-Coder系列中的3B参数模型,专注于代码生成与理解。
Skywork o1 Open系列模型,提升复杂问题解决能力
开源的RAG基础聊天工具,与文档对话。
探索AI前沿,精选国内外AI产品与应用。
基于ESP32的AI聊天机器人项目,可实现多语言对话与声纹识别
高性能英文文本生成模型
开源知识图谱构建模型,成本低廉,Triplex官网入口网址
AI视频编辑器,为生成式电影制作设计。Clapper官网入口网址
精选全球AI前沿科技和开源产品,漫话开发者UWL.ME官网入口网址
高效编码的开源大型语言模型,Yi-Coder官网入口网址
一种先进的文本到图像的生成模型。FLUX.1-dev-Controlnet-Union-alpha官网入口网址
最简单的开源实现,nanoPerplexityAI官网入口网址
代理法官,用于自动评估任务和提供奖励信号。
一个简单易用的语音克隆和语音模型训练工具。
一个用于生成对话式语音的模型,支持从文本和音频输入生成高质量的语音。
工业级可控高效的零样本文本到语音系统
一个用于构建Retrieval-Augmented Generation (RAG)应用的开源项目。
SkyReels V1 是一个开源的人类中心视频基础模型,专注于高质量影视级视频生成。
一个专注于超大规模系统设计和优化的工具,提供高效解决方案。
一个基于音频驱动的实时2D聊天头像生成模型,可在仅使用CPU的设备上实现30fps的实时推理。
OmniParser 是一款通用屏幕解析工具,可将 UI 截图转换为结构化格式,提升基于 LLM 的 UI 代理性能。
开源工业级自动语音识别模型,支持普通话、方言和英语,性能卓越。
基于Kokoro和ONNX运行时的文本到语音(TTS)项目。
一个开源的编程助手工具,帮助开发者简化编程任务。
InternLM3-8B-Instruct是一个开源的80亿参数指令模型,用于通用用途和高级推理。
一个用于多模型嵌入的图形库,支持多种模型和数据类型的可视化
AI模型部署和推理优化的专家
Genmo 的视频生成模型,具有高保真运动和强提示遵循性。
视频处理界面,提供视频编码和解码功能
实时浏览器端语音识别应用
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适