轻量级端到端文本到语音模型
基于深度学习的高质量文本到语音合成模型
基于MaskGCT模型的文本到语音演示
使用文本生成音乐的模型
开源的音乐生成模型
从单张图片创建全身动态说话头像
8B参数变分自编码器模型,用于高效的文本到图像生成。
轻松在远程GPU上运行本地笔记本,Moonglow官网入口网址
通过测试时间缩放显著提升视频生成质量。
LLaSA: 扩展基于 LLaMA 的语音合成的训练时间和测试时间计算量
VideoLLaMA3是前沿的多模态基础模型,专注于图像和视频理解。
开源自回归视觉生成模型项目
微软开源的视频分词器家族
使用Llama模型的语音合成工具
AI云平台,为所有人服务
视觉语言模型增强工具,结合生成式视觉编码器和深度广度融合技术。
零样本风格化情侣肖像创作
深度推理翻译模型,通过长思考链优化神经机器翻译。
从零开始学习深度学习,实现GPT模型,zero_to_gpt官网入口网址
F Lite 是一款 10B 参数的扩散模型,专注于合法和安全内容。
强大的语言模型,支持多种自然语言处理任务。
一款先进的视觉推理模型,能分析图片和视频内容。
实现灵活且高保真度的图像生成,同时保持身份特征。
Huginn-0125是一个35亿参数的潜变量循环深度模型,擅长推理和代码生成。
Tarsier 是由字节跳动推出的用于生成高质量视频描述的大型视频语言模型。
BEN2是一个基于深度学习的图像分割模型,专注于背景擦除和前景提取。
Frames 是 Runway 推出的高级图像生成基础模型,提供前所未有的风格控制和视觉保真度。
OmniThink 是一种通过模拟人类思考过程来提升机器写作知识密度的框架。
InternLM3-8B-Instruct是一个开源的80亿参数指令模型,用于通用用途和高级推理。
高质量身份保留的人像动画合成工具。
快速因果视频生成器,实现即时视频生成。
音乐生成模型,通过控制网络进行微调。
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适