Wan2.1 是一款开源的先进大规模视频生成模型,支持多种视频生成任务。
QwQ-Max-Preview 是 Qwen 系列的最新成果,基于 Qwen2.5-Max 构建,具备强大的推理和多领域应用能力。
一种通过文本迷宫解决任务来增强大型语言模型视觉推理能力的创新方法
一个快速启动带有OpenAI集成的Django项目的模板。
首个面向语境智能的人类级实时交互系统,支持多情感、多风格语音交互。
一个开源的编程助手工具,帮助开发者简化编程任务。
加速数字团队的AI驱动设计转代码、可视化编辑和企业级CMS的视觉开发平台。
一款基于StyleTTS 2架构的先进AI文本转语音模型,拥有8200万参数,提供高质量的自然语音合成。
实时AI视频生成开源模型
将任何PDF转换为播客集!
实时浏览器端语音识别应用
开源大型语言模型工具集合
macOS用户的原生AI聊天界面
开源多模态大型语言模型,支持实时语音输入和流式音频输出。Mini-Omni官网入口网址
基于flux-dev的Deforum实现,deforum-x-flux官网入口网址
最简单的开源实现,nanoPerplexityAI官网入口网址
开源项目,为开源社区提供服务,Zitefy官网入口网址
一键生成海量模板,支持SaaS多开的全开源系统,站长团购AIPPT系统官网入口网址
DeepSeek R1-0528 是一款开源大模型,性能媲美 OpenAI o3 模型。
开源的全能 AI 助手,帮助完成各种任务。
一款基于 Vue3 + ElementPlus 的聊天应用,内置多个大语言模型。
Pusa 是一个新颖的视频扩散模型,支持多种视频生成任务。
RAG-FiT是一个用于提升LLMs利用外部信息能力的库,通过特别创建的RAG增强数据集对模型进行微调。
一种用于控制视频扩散模型运动模式的高效方法,支持运动模式的自定义和迁移。
开源、自托管、AI驱动的应用构建器。
开源、注重隐私的语音助手
自动语音识别工具,提供词级时间戳和说话人识别
开源云平台,实现超低延迟的语音和视频AI。Daily Bots官网入口网址
一个强大的统一多模态模型,支持文本到图像生成及图像编辑。
个人化的 AI 记忆层,确保数据安全与隐私。
一个用于 PDF 科学论文翻译和双语对比的库。
AI模型部署和推理优化的专家
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适