音乐生成模型,通过控制网络进行微调。
利用AI创作音乐
提升户外虚拟试穿效果的模型训练代码库
从单张图片创建全身动态说话头像
基于文本生成服装图像的AI模型
开放源代码的 8B 参数文本到图像扩散模型。
AI研究资源导航网站,提供AI研究资源、文档和实践案例
行业领先的人工智能基础架构解决方案商,思腾合力官网入口网址
LLaSA: 扩展基于 LLaMA 的语音合成的训练时间和测试时间计算量
InternLM3-8B-Instruct是一个开源的80亿参数指令模型,用于通用用途和高级推理。
视觉语言模型增强工具,结合生成式视觉编码器和深度广度融合技术。
一种非侵入式脑机接口技术,通过脑电图或脑磁图解码大脑活动以实现文本输入。
Tarsier 是由字节跳动推出的用于生成高质量视频描述的大型视频语言模型。
FLUX.1的最小且通用的控制器
轻松在远程GPU上运行本地笔记本,Moonglow官网入口网址
DeepEP 是一个针对 Mixture-of-Experts 和专家并行通信的高效通信库。
一种高效的无泄漏唇同步技术。
轻量级嵌套架构,用于语音反欺诈。
QwQ-Max-Preview 是 Qwen 系列的最新成果,基于 Qwen2.5-Max 构建,具备强大的推理和多领域应用能力。
OmniThink 是一种通过模拟人类思考过程来提升机器写作知识密度的框架。
为 Diffusion Transformer 提供高效灵活的控制框架。
Pruna 是一个模型优化框架,帮助开发者快速高效交付模型。
实现灵活且高保真度的图像生成,同时保持身份特征。
CogView4-6B 是一个强大的文本到图像生成模型,专注于高质量图像生成。
Video Depth Anything: Consistent Depth Estimation for Super-Long Videos
高质量身份保留的人像动画合成工具。
深度推理翻译模型,通过长思考链优化神经机器翻译。
BAGEL是一款开源的统一多模态模型,您可以在任何地方进行微调、精简和部署。
从零开始学习深度学习,实现GPT模型,zero_to_gpt官网入口网址
业界首个超大规模混合 Mamba 推理模型,强推理能力。
革新服装商业摄影的智能编辑工具 图应AI致力于服装行业,专门为商业摄影提供智能化的图片编辑服务,图应AI官网入口网址
Pyramid-Flow的ComfyUI包装节点,用于高效视觉生成。
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适