FlashVideo 是一个高效的高分辨率视频生成模型,专注于细节和保真度的流动。
一种非侵入式脑机接口技术,通过脑电图或脑磁图解码大脑活动以实现文本输入。
百度旗下AI算力、学习和实训平台,飞桨AI Studio星河社区官网入口网址
DeepFloyd IF是一个强大的文本到图像生成模型,能够生成高分辨率和逼真度的图像。它结合了先进的语言理解和图像生成技术,提供了多种功能,如超分辨率、风格迁移和零样本学习,DeepFloyd官网入口网址
706课时帮助学生打下坚实的基础,为进一步学习人工智能和深度学习做好准备,AI算法工程师-必备基础与机器学习官网入口网址
快速因果视频生成器,实现即时视频生成。
开源文本到图像生成模型,AuraFlow v0.3官网入口网址
多功能文本到多模态内容生成框架,Alpha-VLLM官网入口网址
用于理解任意视频中的相机运动的工具。
基于 DiT 的人类图像动画框架,实现精细控制与长效一致性。
通过测试时间缩放显著提升视频生成质量。
业界首个超大规模混合 Mamba 推理模型,强推理能力。
Tarsier 是由字节跳动推出的用于生成高质量视频描述的大型视频语言模型。
行业领先的人工智能基础架构解决方案商,思腾合力官网入口网址
VideoLLaMA3是前沿的多模态基础模型,专注于图像和视频理解。
一个功能强大的图像生成工具,它通过扩散模型技术,根据文本描述生成高质量的图像。这个工具为用户提供了一种创新的方式来探索和实现他们的创意视觉概念,TextDiffuser-2官网入口网址
InternLM3-8B-Instruct是一个开源的80亿参数指令模型,用于通用用途和高级推理。
开源自回归视觉生成模型项目
高质量身份保留的人像动画合成工具。
微软开源的视频分词器家族
轻量级端到端文本到语音模型
使用Llama模型的语音合成工具
利用AI创作音乐
视觉语言模型增强工具,结合生成式视觉编码器和深度广度融合技术。
8B参数变分自编码器模型,用于高效的文本到图像生成。
轻松在远程GPU上运行本地笔记本,Moonglow官网入口网址
从零开始学习深度学习,实现GPT模型,zero_to_gpt官网入口网址
DeepEP 是一个针对 Mixture-of-Experts 和专家并行通信的高效通信库。
F Lite 是一款 10B 参数的扩散模型,专注于合法和安全内容。
强大的语言模型,支持多种自然语言处理任务。
实现灵活且高保真度的图像生成,同时保持身份特征。
LLaSA: 扩展基于 LLaMA 的语音合成的训练时间和测试时间计算量
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适