高精度视频唇形同步技术
基于MaskGCT模型的文本到语音演示
VideoLLaMA3是前沿的多模态基础模型,专注于图像和视频理解。
一种新颖的图像到视频采样技术,基于Hunyuan模型实现高质量视频生成。
MatAnyone 是一个支持目标指定的稳定视频抠像框架,适用于复杂背景。
用户能够根据自己的喜好创建和互动一个AI女友。这个工具以其定制化选项、深度学习能力和灵活的互动功能为主要特点,为用户提供了一个可以进行情感交流和个性化互动的虚拟伴侣,Tingo.ai官网入口网址
使用文本生成音乐的模型
从单张图片创建全身动态说话头像
一种通过视觉上下文学习的通用图像生成框架。
在视频扩散变换器中合成任何内容的框架。
FlashVideo 是一个高效的高分辨率视频生成模型,专注于细节和保真度的流动。
VideoJAM 是一种用于增强视频生成模型运动连贯性的框架。
BEN2是一个基于深度学习的图像分割模型,专注于背景擦除和前景提取。
MNN 是阿里巴巴开源的轻量级高性能推理引擎,支持多种主流模型格式。
用于识别数学推理过程中的错误
革命性深度学习工具,用于面部转换和视频生成。
快速因果视频生成器,实现即时视频生成。
先进的多模态图像生成模型,结合文本提示和视觉参考生成高质量图像。
基于文本生成服装图像的AI模型
多功能文本到多模态内容生成框架,Alpha-VLLM官网入口网址
开源视频生成模型,支持多种生成任务。
QwQ-32B 是一款强大的推理模型,专为复杂问题解决和文本生成设计,性能卓越。
UniTok是一个用于视觉生成和理解的统一视觉分词器。
一个基于文本生成图像的预训练模型,具有80亿参数和Apache 2.0开源许可。
基于深度学习的高质量文本到语音合成模型
快速生成带纹理的3D模型,SF3D官网入口网址
快速且内存高效的精确注意力机制
一款通过生成模型提升图像生成一致性的工具。
一个高效的语音合成模型,支持中英文及语音克隆。
Pruna 是一个模型优化框架,帮助开发者快速高效交付模型。
LLaSA: 扩展基于 LLaMA 的语音合成的训练时间和测试时间计算量
由Novita AI提供的非官方Animate Anyone实现
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适