深度学习

VidTok

微软开源的视频分词器家族

FluxMusic

使用文本生成音乐的模型

Kalavai

AI云平台，为所有人服务

Llama-3.1-70B-Instruct-AWQ-INT4

70B参数的文本生成模型

Blip 3o

此应用可根据文本描述生成图像，或提供现有图像的描述和答案。

PhotoDoodle

PhotoDoodle 是一个基于少量样本对数据学习艺术图像编辑的代码实现。

How Much VRAM

开源项目，用于估算模型训练或推理所需的显存。

F5-TTS

基于深度学习的高质量文本到语音合成模型

FlexHeadFA

快速且内存高效的精确注意力机制

DreamActor-M1

基于 DiT 的人类图像动画框架，实现精细控制与长效一致性。

Lumina-Video

Lumina-Video 是一个用于视频生成的初步尝试项目，支持文本到视频的生成。

VideoLLaMA3

VideoLLaMA3是前沿的多模态基础模型，专注于图像和视频理解。

BEN2

BEN2是一个基于深度学习的图像分割模型，专注于背景擦除和前景提取。

Llama 3.2 3b Voice

使用Llama模型的语音合成工具

Cody Former

CodeFormer_GUI 是一款易于使用的人脸清晰化工具，提供图形用户界面，支持批量处理和多种输出格式，适合各类用户，Cody Former官网入口网址

AuraFlow v0.3

开源文本到图像生成模型，AuraFlow v0.3官网入口网址

Video-T1

通过测试时间缩放显著提升视频生成质量。

【新】AI算法工程师-深度学习入门

31课时掌握神经网络的基本原理和实现方法，以及卷积神经网络、递归神经网络和词向量等经典模型的原理和应用技巧，打下深度学习领域的坚实基础，【新】AI算法工程师-深度学习入门官网入口网址

StarCoder 2

一个强大的代码生成和理解工具，它通过大规模训练和多样化的模型规模，为开发者提供了一个高性能的编程辅助平台，StarCoder 2官网入口网址

FastVLM

高效的视觉编码技术，提升视觉语言模型性能。

CameraBench

用于理解任意视频中的相机运动的工具。

BizGen

一款用于生成信息图表的视觉文本渲染工具。

Huginn-0125

Huginn-0125是一个35亿参数的潜变量循环深度模型，擅长推理和代码生成。

ProcessBench

用于识别数学推理过程中的错误

DocLayout-YOLO

通过多样化合成数据和全局到局部自适应感知增强文档布局分析

Omni-Zero-Couples

零样本风格化情侣肖像创作

VisualCloze

一种通过视觉上下文学习的通用图像生成框架。

MNN

MNN 是阿里巴巴开源的轻量级高性能推理引擎，支持多种主流模型格式。

Wav2Lip

高精度视频唇形同步技术

DreamClear

高容量真实世界图像修复与隐私安全数据管理

Qwen2vl-Flux

先进的多模态图像生成模型，结合文本提示和视觉参考生成高质量图像。

AI算法工程师-必备基础与机器学习

706课时帮助学生打下坚实的基础，为进一步学习人工智能和深度学习做好准备，AI算法工程师-必备基础与机器学习官网入口网址

OpeniTab