通过视频扩散变换器将自定义照片与视频混合的项目。
AI驱动的开源笔记/研究平台,尊重您的隐私。
开源AI语音处理工具包,支持语音增强、分离和目标说话人提取。
ComfyUI节点,用于MMAudio模型的音频处理
音频采样器,创造音乐节奏
开源AI代码编辑器,提供强大的AI功能和完全的数据控制。
开源AI开发者助手,提升开发效率。
领先的指令遵循模型家族,提供开源数据、代码和指南。
与任何大型语言模型进行快速的免提语音交互。Open-LLM-VTuber官网入口网址
精选全球AI前沿科技和开源产品,漫话开发者UWL.ME官网入口网址
智能AI辅助编写邮件模板,简化邮件发送流程。Volamail官网入口网址
一款开源的14B参数量的数学模型,通过强化学习训练,性能卓越。
Aya Vision 32B 是一个支持多语言的视觉语言模型,适用于OCR、图像描述、视觉推理等多种用途。
Migician 是一个专注于多图像定位的多模态大语言模型,能够实现自由形式的多图像精确定位。
SkyReels V1 是一个开源的人类中心视频基础模型,专注于高质量影视级视频生成。
一个基于音频驱动的实时2D聊天头像生成模型,可在仅使用CPU的设备上实现30fps的实时推理。
一个开源的多智能体聊天界面,支持在一个动态对话中管理多个智能体。
Xyne 是一款开源的、以 AI 为先的搜索与答案引擎,专为工作场景设计。
On-device Sora 是一个基于扩散模型的移动设备端文本到视频生成项目。
开源的工业级普通话自动语音识别模型,支持多种应用场景。
中英双语对话模型 ChatGLM-6B,支持在单张消费级显卡上进行推理使用,支持中英双语问答的对话语言模型,并针对中文进行了优化,清华开源模型ChatGLM-6B可本地官网入口网址
BBT-2-12B-Text基于中文700亿tokens进行预训练,经过指令微调的BBT-2基础模型可以回答百科类和日常生活的问题。BBT-2.5-13B-Text基于中文+英文 2000亿tokens进行预训练,乾元BigBangTransformer官网入口网址
一个开源项目,用于在浏览器中演示 AI 视频生成模型。
地球科学的开源大预言模型,首先在收集和清理过的地球科学文献(包括地球科学开放存取论文和维基百科页面)上对 LLaMA 进行进一步预训练,然后使用知识密集型指令调整数据(GeoSignal)进行微调,K2-上海交通大学官网入口网址
DeepSeek-R1-Distill-Qwen-7B 是一个开源的推理模型,专注于数学、代码和推理任务。
一种新颖的图像到视频采样技术,基于Hunyuan模型实现高质量视频生成。
DeepSeek-R1-Distill-Llama-70B 是一款基于强化学习优化的大型语言模型,专注于推理和对话能力。
一个基于文本生成图像的预训练模型,具有80亿参数和Apache 2.0开源许可。
DeepSeek-R1-Distill-Qwen-32B 是一款高性能的开源语言模型,适用于多种文本生成任务。
AI语音代理测试与可观测性平台
一个强大的OCR包,使用最先进的视觉语言模型提取图像中的文本。
隐私优先,自托管的全开源个人知识管理系统
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适