YuE是一个开源的音乐生成模型,能够将歌词转化为完整的歌曲。
一个基于文本生成图像的预训练模型,具有80亿参数和Apache 2.0开源许可。
统一的开放命名实体和语音识别模型
一个高效的语音合成模型,支持中英文及语音克隆。
QwQ-32B 是一款强大的推理模型,专为复杂问题解决和文本生成设计,性能卓越。
开源项目,用于估算模型训练或推理所需的显存。
基于MaskGCT模型的文本到语音演示
使用文本生成音乐的模型
先进的多模态图像生成模型,结合文本提示和视觉参考生成高质量图像。
一种通过视觉上下文学习的通用图像生成框架。
VideoJAM 是一种用于增强视频生成模型运动连贯性的框架。
MatAnyone 是一个支持目标指定的稳定视频抠像框架,适用于复杂背景。
MNN 是阿里巴巴开源的轻量级高性能推理引擎,支持多种主流模型格式。
通过多样化合成数据和全局到局部自适应感知增强文档布局分析
开源自回归视觉生成模型项目
革命性深度学习工具,用于面部转换和视频生成。
快速因果视频生成器,实现即时视频生成。
微软开源的视频分词器家族
基于深度学习的高质量文本到语音合成模型
高精度视频唇形同步技术
AI云平台,为所有人服务
多功能文本到多模态内容生成框架,Alpha-VLLM官网入口网址
快速且内存高效的精确注意力机制
一款通过生成模型提升图像生成一致性的工具。
UniTok是一个用于视觉生成和理解的统一视觉分词器。
Frames 是 Runway 推出的高级图像生成基础模型,提供前所未有的风格控制和视觉保真度。
轻量级端到端文本到语音模型
从单张图片创建全身动态说话头像
零样本风格化情侣肖像创作
基于文本生成服装图像的AI模型
一个社区驱动的深度研究框架,结合语言模型与多种工具。
用于理解任意视频中的相机运动的工具。
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适