音乐生成模型,通过控制网络进行微调。
利用AI创作音乐
开源的音乐生成模型
AI云平台,为所有人服务
图像水印技术,可在图片中嵌入局部化水印信息
提升户外虚拟试穿效果的模型训练代码库
视觉语言模型增强工具,结合生成式视觉编码器和深度广度融合技术。
从单张图片创建全身动态说话头像
8B参数变分自编码器模型,用于高效的文本到图像生成。
基于文本生成服装图像的AI模型
从零开始学习深度学习,实现GPT模型,zero_to_gpt官网入口网址
用于视频生成的下一帧预测模型。
开源视频生成模型,支持多种生成任务。
通过测试时间缩放显著提升视频生成质量。
Pruna 是一个模型优化框架,帮助开发者快速高效交付模型。
实现灵活且高保真度的图像生成,同时保持身份特征。
Inductive Moment Matching 是一种新型的生成模型,用于高质量图像生成。
HunyuanVideo-I2V 是腾讯推出的基于 HunyuanVideo 的图像到视频生成框架。
QwQ-Max-Preview 是 Qwen 系列的最新成果,基于 Qwen2.5-Max 构建,具备强大的推理和多领域应用能力。
VLM-R1 是一个稳定且通用的强化视觉语言模型,专注于视觉理解任务。
基于 PyTorch 的音乐、歌曲和音频生成工具包,支持高质量音频生成
DeepFloyd IF是一个强大的文本到图像生成模型,能够生成高分辨率和逼真度的图像。它结合了先进的语言理解和图像生成技术,提供了多种功能,如超分辨率、风格迁移和零样本学习,DeepFloyd官网入口网址
AI研究资源导航网站,提供AI研究资源、文档和实践案例
Tarsier 是由字节跳动推出的用于生成高质量视频描述的大型视频语言模型。
VideoJAM 是一种用于增强视频生成模型运动连贯性的框架。
VideoLLaMA3是前沿的多模态基础模型,专注于图像和视频理解。
Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。
OmniThink 是一种通过模拟人类思考过程来提升机器写作知识密度的框架。
革新服装商业摄影的智能编辑工具 图应AI致力于服装行业,专门为商业摄影提供智能化的图片编辑服务,图应AI官网入口网址
一款基于Midjourney风格的文本到图像生成模型,专注于高分辨率和写实风格的图像创作。
高质量身份保留的人像动画合成工具。
FLUX.1的最小且通用的控制器
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适