使用Llama模型的语音合成工具
AI云平台,为所有人服务
BAGEL是一款开源的统一多模态模型,您可以在任何地方进行微调、精简和部署。
一个基于深度学习的图像和视频描述模型。
轻量级嵌套架构,用于语音反欺诈。
为 Diffusion Transformer 提供高效灵活的控制框架。
基于 DiT 的人类图像动画框架,实现精细控制与长效一致性。
一款先进的视觉推理模型,能分析图片和视频内容。
一款用于生成信息图表的视觉文本渲染工具。
一种无混叠的任意尺度超分辨率方法。
CogView4-6B 是一个强大的文本到图像生成模型,专注于高质量图像生成。
PhotoDoodle 是一个基于少量样本对数据学习艺术图像编辑的代码实现。
QwQ-Max-Preview 是 Qwen 系列的最新成果,基于 Qwen2.5-Max 构建,具备强大的推理和多领域应用能力。
Lumina-Video 是一个用于视频生成的初步尝试项目,支持文本到视频的生成。
《动手学深度学习》:面向中文读者、能运行、可讨论,《动手学深度学习》:面向中文读者、能运行、可讨论官网入口网址
DeepFloyd IF是一个强大的文本到图像生成模型,能够生成高分辨率和逼真度的图像。它结合了先进的语言理解和图像生成技术,提供了多种功能,如超分辨率、风格迁移和零样本学习,DeepFloyd官网入口网址
零样本风格化情侣肖像创作
8B参数变分自编码器模型,用于高效的文本到图像生成。
此应用可根据文本描述生成图像,或提供现有图像的描述和答案。
高效的视觉编码技术,提升视觉语言模型性能。
Pusa 是一个新颖的视频扩散模型,支持多种视频生成任务。
通过多实例扩散模型将单张图像生成高保真度的3D场景。
AI研究资源导航网站,提供AI研究资源、文档和实践案例
用于理解任意视频中的相机运动的工具。
Video Depth Anything: Consistent Depth Estimation for Super-Long Videos
高容量真实世界图像修复与隐私安全数据管理
70B参数的文本生成模型
DreamO 是一个统一的图像定制框架。
基于自回归变换器生成人工制作的 3D 原始装配体。
一个社区驱动的深度研究框架,结合语言模型与多种工具。
一种高效的无泄漏唇同步技术。
一款高质量的英语自动语音识别模型,支持标点符号和时间戳预测。
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适