8亿参数的多语言视觉语言模型,支持OCR、图像描述、视觉推理等功能
PhotoDoodle 是一个基于少量样本对数据学习艺术图像编辑的代码实现。
QwQ-Max-Preview 是 Qwen 系列的最新成果,基于 Qwen2.5-Max 构建,具备强大的推理和多领域应用能力。
一种通过文本迷宫解决任务来增强大型语言模型视觉推理能力的创新方法
一个快速启动带有OpenAI集成的Django项目的模板。
RAG-FiT是一个用于提升LLMs利用外部信息能力的库,通过特别创建的RAG增强数据集对模型进行微调。
首个面向语境智能的人类级实时交互系统,支持多情感、多风格语音交互。
一个开源的编程助手工具,帮助开发者简化编程任务。
加速数字团队的AI驱动设计转代码、可视化编辑和企业级CMS的视觉开发平台。
基于 Apple MLX 框架的视频字幕生成工具
实时浏览器端语音识别应用
开源、注重隐私的语音助手
开源大型语言模型工具集合
高分辨率、高效率的文本到图像生成框架
高分辨率、高效率的文本到图像生成框架,Sana_1600M_1024px官网入口网址
DeepSeek R1-0528 是一款开源大模型,性能媲美 OpenAI o3 模型。
代理法官,用于自动评估任务和提供奖励信号。
一个模型上下文协议服务器,用于 Excel 文件操作。
一款基于 Vue3 + ElementPlus 的聊天应用,内置多个大语言模型。
Pusa 是一个新颖的视频扩散模型,支持多种视频生成任务。
Wan2.1 是一款开源的先进大规模视频生成模型,支持多种视频生成任务。
一种用于控制视频扩散模型运动模式的高效方法,支持运动模式的自定义和迁移。
开源、自托管、AI驱动的应用构建器。
AI模型部署和推理优化的专家
实时AI视频生成开源模型
自动语音识别工具,提供词级时间戳和说话人识别
开源云平台,实现超低延迟的语音和视频AI。Daily Bots官网入口网址
开源AI代码编辑器,为10倍效率工程师设计。Melty官网入口网址
个人化的 AI 记忆层,确保数据安全与隐私。
开源的全能 AI 助手,帮助完成各种任务。
昆仑万维开源的高性能数学代码推理模型,性能卓越
一个用于 PDF 科学论文翻译和双语对比的库。
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适