深度学习

Stable Audio ControlNet

音乐生成模型，通过控制网络进行微调。

OpenMusic

利用AI创作音乐

BooW-VTON

提升户外虚拟试穿效果的模型训练代码库

One Shot, One Talk

从单张图片创建全身动态说话头像

FLUX.1-dev LoRA Outfit Generator

基于文本生成服装图像的AI模型

Flex.2-preview

开放源代码的 8B 参数文本到图像扩散模型。

DeepResearch123

AI研究资源导航网站，提供AI研究资源、文档和实践案例

思腾合力

行业领先的人工智能基础架构解决方案商，思腾合力官网入口网址

LLaSA_training

LLaSA：扩展基于 LLaMA 的语音合成的训练时间和测试时间计算量

InternLM3-8B-Instruct

InternLM3-8B-Instruct是一个开源的80亿参数指令模型，用于通用用途和高级推理。

Florence-VL

视觉语言模型增强工具，结合生成式视觉编码器和深度广度融合技术。

Brain2Qwerty

一种非侵入式脑机接口技术，通过脑电图或脑磁图解码大脑活动以实现文本输入。

Tarsier

Tarsier 是由字节跳动推出的用于生成高质量视频描述的大型视频语言模型。

OminiControl

FLUX.1的最小且通用的控制器

Moonglow

轻松在远程GPU上运行本地笔记本，Moonglow官网入口网址

DeepEP

DeepEP 是一个针对 Mixture-of-Experts 和专家并行通信的高效通信库。

KeySync

一种高效的无泄漏唇同步技术。

Nes2Net

轻量级嵌套架构，用于语音反欺诈。

QwQ-Max-Preview

QwQ-Max-Preview 是 Qwen 系列的最新成果，基于 Qwen2.5-Max 构建，具备强大的推理和多领域应用能力。

OmniThink

OmniThink 是一种通过模拟人类思考过程来提升机器写作知识密度的框架。

EasyControl

为 Diffusion Transformer 提供高效灵活的控制框架。

Pruna

Pruna 是一个模型优化框架，帮助开发者快速高效交付模型。

InfiniteYou

实现灵活且高保真度的图像生成，同时保持身份特征。

CogView4-6B

CogView4-6B 是一个强大的文本到图像生成模型，专注于高质量图像生成。

Video Depth Anything

Video Depth Anything: Consistent Depth Estimation for Super-Long Videos

StableAnimator

高质量身份保留的人像动画合成工具。

DRT-o1

深度推理翻译模型，通过长思考链优化神经机器翻译。

Bagel

BAGEL是一款开源的统一多模态模型，您可以在任何地方进行微调、精简和部署。

zero_to_gpt

从零开始学习深度学习，实现GPT模型，zero_to_gpt官网入口网址

混元T1

业界首个超大规模混合 Mamba 推理模型，强推理能力。

图应AI

革新服装商业摄影的智能编辑工具图应AI致力于服装行业，专门为商业摄影提供智能化的图片编辑服务，图应AI官网入口网址

ComfyUI-PyramidFlowWrapper

Pyramid-Flow的ComfyUI包装节点，用于高效视觉生成。

OpeniTab