8亿参数的多语言视觉语言模型,支持OCR、图像描述、视觉推理等功能
工业级可控高效的零样本文本到语音系统
探索大型语言模型作为编程辅导工具的潜力,提出Trace-and-Verify工作流。
将电子书转换为有声书的工具。
一个具有先进语音活动检测、唤醒词激活和即时转录功能的稳健、高效、低延迟的语音到文本库。
PengChengStarling 是一个基于 icefall 项目的多语言自动语音识别(ASR)模型开发工具包。
本地运行的人工智能代理,无缝自动化工程任务。
DeepSeek-R1-Distill-Qwen-32B 是一款高性能的开源语言模型,适用于多种文本生成任务。
一个强大的OCR包,使用最先进的视觉语言模型提取图像中的文本。
Genmo 的视频生成模型,具有高保真运动和强提示遵循性。
腾讯开源的大型视频生成模型训练框架
与大型语言模型进行自然的语音对话
实时浏览器端语音识别应用
开源监控工具,提升LLM应用性能。Langtrace官网入口网址
与任何大型语言模型进行快速的免提语音交互。Open-LLM-VTuber官网入口网址
实时语音和视频推理的开放标准,RTVI-AI官网入口网址
智能AI辅助编写邮件模板,简化邮件发送流程。Volamail官网入口网址
强大的开源Kimi K2聊天平台,通过Kimi AI在编程和数学基准测试中超越GPT-4。企业级Kimi AI,成本降低95%。
轻松将现有代理框架中的工具、代理和调度器转换为 MCP 服务器。
一个强大的文本生成模型,适用于多种对话应用。
一个开源的多云平台客户端,支持LangGraph代理和前端应用开发。
Migician 是一个专注于多图像定位的多模态大语言模型,能够实现自由形式的多图像精确定位。
一个用于LLM预训练的高效网络爬虫工具,专注于高效爬取高质量网页数据。
开源工业级自动语音识别模型,支持普通话、方言和英语,性能卓越。
一个开源项目,用于在浏览器中演示 AI 视频生成模型。
加速数字团队的AI驱动设计转代码、可视化编辑和企业级CMS的视觉开发平台。
一个基于文本生成图像的预训练模型,具有80亿参数和Apache 2.0开源许可。
通过视频扩散变换器将自定义照片与视频混合的项目。
开源数字人课程制作平台
开源工具,简化从非结构化文档中提取和探索结构化数据。
业界领先的开源大型混合专家模型
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适