FlashVideo 是一个高效的高分辨率视频生成模型,专注于细节和保真度的流动。
706课时帮助学生打下坚实的基础,为进一步学习人工智能和深度学习做好准备,AI算法工程师-必备基础与机器学习官网入口网址
MatAnyone 是一个支持目标指定的稳定视频抠像框架,适用于复杂背景。
一个基于文本生成图像的预训练模型,具有80亿参数和Apache 2.0开源许可。
开源项目,用于估算模型训练或推理所需的显存。
Pyramid-Flow的ComfyUI包装节点,用于高效视觉生成。
革命性深度学习工具,用于面部转换和视频生成。
基于深度学习的高质量文本到语音合成模型
高精度视频唇形同步技术
基于MaskGCT模型的文本到语音演示
人脸匿名化技术,保留关键细节同时有效保护隐私。
FLUX.1的最小且通用的控制器
基于文本生成服装图像的AI模型
开源文本到图像生成模型,AuraFlow v0.3官网入口网址
多功能文本到多模态内容生成框架,Alpha-VLLM官网入口网址
在视频扩散变换器中合成任何内容的框架。
百度旗下AI算力、学习和实训平台,飞桨AI Studio星河社区官网入口网址
LLaSA: 扩展基于 LLaMA 的语音合成的训练时间和测试时间计算量
31课时掌握神经网络的基本原理和实现方法,以及卷积神经网络、递归神经网络和词向量等经典模型的原理和应用技巧,打下深度学习领域的坚实基础,【新】AI算法工程师-深度学习入门官网入口网址
一种新颖的图像到视频采样技术,基于Hunyuan模型实现高质量视频生成。
Janus-Pro-7B 是一个新型的自回归框架,统一多模态理解和生成。
开源自回归视觉生成模型项目
微软开源的视频分词器家族
轻量级端到端文本到语音模型
使用文本生成音乐的模型
开源的音乐生成模型
从单张图片创建全身动态说话头像
轻松在远程GPU上运行本地笔记本,Moonglow官网入口网址
一个高效的语音合成模型,支持中英文及语音克隆。
通过测试时间缩放显著提升视频生成质量。
业界首个超大规模混合 Mamba 推理模型,强推理能力。
Pruna 是一个模型优化框架,帮助开发者快速高效交付模型。
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适