Kimi-Audio 是一个开源音频基础模型,擅长音频理解与生成。
轻量级嵌套架构,用于语音反欺诈。
强大的语言模型,支持多种自然语言处理任务。
一款通过生成模型提升图像生成一致性的工具。
Pusa 是一个新颖的视频扩散模型,支持多种视频生成任务。
在视频扩散变换器中合成任何内容的框架。
一个高效的语音合成模型,支持中英文及语音克隆。
一种无混叠的任意尺度超分辨率方法。
通过多实例扩散模型将单张图像生成高保真度的3D场景。
CogView4-6B 是一个强大的文本到图像生成模型,专注于高质量图像生成。
一种非侵入式脑机接口技术,通过脑电图或脑磁图解码大脑活动以实现文本输入。
《动手学深度学习》:面向中文读者、能运行、可讨论,《动手学深度学习》:面向中文读者、能运行、可讨论官网入口网址
DeepFloyd IF是一个强大的文本到图像生成模型,能够生成高分辨率和逼真度的图像。它结合了先进的语言理解和图像生成技术,提供了多种功能,如超分辨率、风格迁移和零样本学习,DeepFloyd官网入口网址
31课时掌握神经网络的基本原理和实现方法,以及卷积神经网络、递归神经网络和词向量等经典模型的原理和应用技巧,打下深度学习领域的坚实基础,【新】AI算法工程师-深度学习入门官网入口网址
高容量真实世界图像修复与隐私安全数据管理
70B参数的文本生成模型
一种通过视觉上下文学习的通用图像生成框架。
为 Diffusion Transformer 提供高效灵活的控制框架。
基于 DiT 的人类图像动画框架,实现精细控制与长效一致性。
一款先进的视觉推理模型,能分析图片和视频内容。
一款用于生成信息图表的视觉文本渲染工具。
Video Depth Anything: Consistent Depth Estimation for Super-Long Videos
一个基于深度学习的图像和视频描述模型。
开放源代码的 8B 参数文本到图像扩散模型。
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适