为LTX视频模型提供额外控制的ComfyUI节点集合
微软开源的视频分词器家族
一款文本转语音工具,帮助您轻松阅读文本。
统一的开放命名实体和语音识别模型
ComfyUI节点,用于MMAudio模型的音频处理
音频采样器,创造音乐节奏
MCP服务器目录,汇集多个MCP服务器资源。
领先的指令遵循模型家族,提供开源数据、代码和指南。
先进的文本生成模型,支持多样化任务
高性能英文文本生成模型
高分辨率、高效率的文本到图像生成框架
先进的文本生成模型,支持多样化任务,Llama-3.1-Tulu-3-8B-DPO官网入口网址
开源知识图谱构建模型,成本低廉,Triplex官网入口网址
与任何大型语言模型进行快速的免提语音交互。Open-LLM-VTuber官网入口网址
基于大型语言模型的高性能MacOS聊天应用,ChatMLX官网入口网址
一种先进的文本到图像的生成模型。FLUX.1-dev-Controlnet-Union-alpha官网入口网址
一个高效的语音合成模型,支持中英文及语音克隆。
生成高质量 SVG 代码的基础模型。
一款开源的14B参数量的数学模型,通过强化学习训练,性能卓越。
Steiner 是一个基于合成数据训练的推理模型,旨在探索多种推理路径并自主验证。
TableGPT2-7B 是一款专注于表格数据处理的大语言模型,适用于数据分析和商业智能任务。
一个用于构建Retrieval-Augmented Generation (RAG)应用的开源项目。
一个基于音频驱动的实时2D聊天头像生成模型,可在仅使用CPU的设备上实现30fps的实时推理。
OmniParser 是一款通用屏幕解析工具,可将 UI 截图转换为结构化格式,提升基于 LLM 的 UI 代理性能。
Magic 1-For-1 是一个高效的图像到视频生成模型,可在一分钟内生成一分钟的视频。
Xyne 是一款开源的、以 AI 为先的搜索与答案引擎,专为工作场景设计。
开源的工业级普通话自动语音识别模型,支持多种应用场景。
YuE是一个开源的音乐生成模型,能够将歌词转化为完整的歌曲。
这是一个基于Qwen2.5-32B模型的4位量化版本,专为高效推理和低资源部署设计。
DeepSeek-R1-Distill-Qwen-7B 是一个开源的推理模型,专注于数学、代码和推理任务。
DeepSeek-R1-Distill-Llama-70B 是一款基于强化学习优化的大型语言模型,专注于推理和对话能力。
AI语音代理测试与可观测性平台
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适