PhotoDoodle 是一个基于少量样本对数据学习艺术图像编辑的代码实现。
基于深度学习的高质量文本到语音合成模型
使用文本生成音乐的模型
AI云平台,为所有人服务
开源文本到图像生成模型,AuraFlow v0.3官网入口网址
此应用可根据文本描述生成图像,或提供现有图像的描述和答案。
基于 DiT 的人类图像动画框架,实现精细控制与长效一致性。
一款基于Midjourney风格的文本到图像生成模型,专注于高分辨率和写实风格的图像创作。
使用Llama模型的语音合成工具
CodeFormer_GUI 是一款易于使用的人脸清晰化工具,提供图形用户界面,支持批量处理和多种输出格式,适合各类用户,Cody Former官网入口网址
高效的视觉编码技术,提升视觉语言模型性能。
通过测试时间缩放显著提升视频生成质量。
Lumina-Video 是一个用于视频生成的初步尝试项目,支持文本到视频的生成。
Huginn-0125是一个35亿参数的潜变量循环深度模型,擅长推理和代码生成。
31课时掌握神经网络的基本原理和实现方法,以及卷积神经网络、递归神经网络和词向量等经典模型的原理和应用技巧,打下深度学习领域的坚实基础,【新】AI算法工程师-深度学习入门官网入口网址
VideoLLaMA3是前沿的多模态基础模型,专注于图像和视频理解。
BEN2是一个基于深度学习的图像分割模型,专注于背景擦除和前景提取。
用于识别数学推理过程中的错误
开源项目,用于估算模型训练或推理所需的显存。
快速且内存高效的精确注意力机制
用于理解任意视频中的相机运动的工具。
一个强大的代码生成和理解工具,它通过大规模训练和多样化的模型规模,为开发者提供了一个高性能的编程辅助平台,StarCoder 2官网入口网址
通过多样化合成数据和全局到局部自适应感知增强文档布局分析
零样本风格化情侣肖像创作
一种通过视觉上下文学习的通用图像生成框架。
一款用于生成信息图表的视觉文本渲染工具。
MNN 是阿里巴巴开源的轻量级高性能推理引擎,支持多种主流模型格式。
高精度视频唇形同步技术
先进的多模态图像生成模型,结合文本提示和视觉参考生成高质量图像。
开放源代码的 8B 参数文本到图像扩散模型。
LLaSA: 扩展基于 LLaMA 的语音合成的训练时间和测试时间计算量
706课时帮助学生打下坚实的基础,为进一步学习人工智能和深度学习做好准备,AI算法工程师-必备基础与机器学习官网入口网址
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适