Tarsier 是由字节跳动推出的用于生成高质量视频描述的大型视频语言模型。
行业领先的人工智能基础架构解决方案商,思腾合力官网入口网址
YuE是一个开源的音乐生成模型,能够将歌词转化为完整的歌曲。
VideoLLaMA3是前沿的多模态基础模型,专注于图像和视频理解。
一个功能强大的图像生成工具,它通过扩散模型技术,根据文本描述生成高质量的图像。这个工具为用户提供了一种创新的方式来探索和实现他们的创意视觉概念,TextDiffuser-2官网入口网址
InternLM3-8B-Instruct是一个开源的80亿参数指令模型,用于通用用途和高级推理。
开源自回归视觉生成模型项目
高质量身份保留的人像动画合成工具。
微软开源的视频分词器家族
轻量级端到端文本到语音模型
使用Llama模型的语音合成工具
基于深度学习的高质量文本到语音合成模型
利用AI创作音乐
开源的音乐生成模型
AI云平台,为所有人服务
从单张图片创建全身动态说话头像
8B参数变分自编码器模型,用于高效的文本到图像生成。
轻松在远程GPU上运行本地笔记本,Moonglow官网入口网址
从零开始学习深度学习,实现GPT模型,zero_to_gpt官网入口网址
强大的语言模型,支持多种自然语言处理任务。
基于 DiT 的人类图像动画框架,实现精细控制与长效一致性。
通过测试时间缩放显著提升视频生成质量。
实现灵活且高保真度的图像生成,同时保持身份特征。
LLaSA: 扩展基于 LLaMA 的语音合成的训练时间和测试时间计算量
BEN2是一个基于深度学习的图像分割模型,专注于背景擦除和前景提取。
OmniThink 是一种通过模拟人类思考过程来提升机器写作知识密度的框架。
快速因果视频生成器,实现即时视频生成。
视觉语言模型增强工具,结合生成式视觉编码器和深度广度融合技术。
深度推理翻译模型,通过长思考链优化神经机器翻译。
基于自回归变换器生成人工制作的 3D 原始装配体。
F Lite 是一款 10B 参数的扩散模型,专注于合法和安全内容。
一款先进的视觉推理模型,能分析图片和视频内容。
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适