一个用于从文本和图像中提取结构化数据的代理API,基于LLMs实现。
Steiner 是一个基于合成数据训练的推理模型,旨在探索多种推理路径并自主验证。
一个基于 DuckDB 和 3FS 构建的轻量级数据处理框架
Migician 是一个专注于多图像定位的多模态大语言模型,能够实现自由形式的多图像精确定位。
一个用于构建Retrieval-Augmented Generation (RAG)应用的开源项目。
探索大型语言模型作为编程辅导工具的潜力,提出Trace-and-Verify工作流。
Gen AI Toolbox for Databases 是一个开源服务器,用于简化与数据库交互的 Gen AI 工具的开发。
BBT-2-12B-Text基于中文700亿tokens进行预训练,经过指令微调的BBT-2基础模型可以回答百科类和日常生活的问题。BBT-2.5-13B-Text基于中文+英文 2000亿tokens进行预训练,乾元BigBangTransformer官网入口网址
一种新颖的图像到视频采样技术,基于Hunyuan模型实现高质量视频生成。
DeepSeek-R1-Distill-Llama-70B 是一款基于强化学习优化的大型语言模型,专注于推理和对话能力。
通过视频扩散变换器将自定义照片与视频混合的项目。
视频编辑工具,使用Genmo Mochi技术
一款文本转语音工具,帮助您轻松阅读文本。
ComfyUI节点,用于MMAudio模型的音频处理
音频采样器,创造音乐节奏
开源AI开发者助手,提升开发效率。
Skywork o1 Open系列模型,提升复杂问题解决能力
精选全球AI前沿科技和开源产品,漫话开发者UWL.ME官网入口网址
智能AI辅助编写邮件模板,简化邮件发送流程。Volamail官网入口网址
多功能文本到多模态内容生成框架,Alpha-VLLM官网入口网址
一款开源的14B参数量的数学模型,通过强化学习训练,性能卓越。
一个用于生成对话式语音的模型,支持从文本和音频输入生成高质量的语音。
Aya Vision 32B 是一个支持多语言的视觉语言模型,适用于OCR、图像描述、视觉推理等多种用途。
TableGPT2-7B 是一款专注于表格数据处理的大语言模型,适用于数据分析和商业智能任务。
SkyReels V1 是一个开源的人类中心视频基础模型,专注于高质量影视级视频生成。
一个专注于超大规模系统设计和优化的工具,提供高效解决方案。
一个基于音频驱动的实时2D聊天头像生成模型,可在仅使用CPU的设备上实现30fps的实时推理。
一个开源的多智能体聊天界面,支持在一个动态对话中管理多个智能体。
OmniParser 是一款通用屏幕解析工具,可将 UI 截图转换为结构化格式,提升基于 LLM 的 UI 代理性能。
Magic 1-For-1 是一个高效的图像到视频生成模型,可在一分钟内生成一分钟的视频。
Xyne 是一款开源的、以 AI 为先的搜索与答案引擎,专为工作场景设计。
On-device Sora 是一个基于扩散模型的移动设备端文本到视频生成项目。
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适