LLaSA: 扩展基于 LLaMA 的语音合成的训练时间和测试时间计算量
MNN 是阿里巴巴开源的轻量级高性能推理引擎,支持多种主流模型格式。
OmniThink 是一种通过模拟人类思考过程来提升机器写作知识密度的框架。
Janus-Pro-7B 是一个新型的自回归框架,统一多模态理解和生成。
Pyramid-Flow的ComfyUI包装节点,用于高效视觉生成。
使用Llama模型的语音合成工具
高精度视频唇形同步技术
开源的音乐生成模型
AI云平台,为所有人服务
图像水印技术,可在图片中嵌入局部化水印信息
8B参数变分自编码器模型,用于高效的文本到图像生成。
从零开始学习深度学习,实现GPT模型,zero_to_gpt官网入口网址
CogView4-6B 是一个强大的文本到图像生成模型,专注于高质量图像生成。
PhotoDoodle 是一个基于少量样本对数据学习艺术图像编辑的代码实现。
Claude 3.7 Sonnet 是 Anthropic 推出的最新智能模型,支持快速响应和深度推理。
QwQ-Max-Preview 是 Qwen 系列的最新成果,基于 Qwen2.5-Max 构建,具备强大的推理和多领域应用能力。
VLM-R1 是一个稳定且通用的强化视觉语言模型,专注于视觉理解任务。
一种非侵入式脑机接口技术,通过脑电图或脑磁图解码大脑活动以实现文本输入。
强大的视频替换与编辑软件,利用AI技术实现自然效果。
DeepFloyd IF是一个强大的文本到图像生成模型,能够生成高分辨率和逼真度的图像。它结合了先进的语言理解和图像生成技术,提供了多种功能,如超分辨率、风格迁移和零样本学习,DeepFloyd官网入口网址
AI研究资源导航网站,提供AI研究资源、文档和实践案例
Tarsier 是由字节跳动推出的用于生成高质量视频描述的大型视频语言模型。
Video Depth Anything: Consistent Depth Estimation for Super-Long Videos
VideoJAM 是一种用于增强视频生成模型运动连贯性的框架。
行业领先的人工智能基础架构解决方案商,思腾合力官网入口网址
YuE是一个开源的音乐生成模型,能够将歌词转化为完整的歌曲。
31课时掌握神经网络的基本原理和实现方法,以及卷积神经网络、递归神经网络和词向量等经典模型的原理和应用技巧,打下深度学习领域的坚实基础,【新】AI算法工程师-深度学习入门官网入口网址
706课时帮助学生打下坚实的基础,为进一步学习人工智能和深度学习做好准备,AI算法工程师-必备基础与机器学习官网入口网址
基于人工智能(AI)的自动论文降重系统,PaperAI智能降重官网入口网址
VideoLLaMA3是前沿的多模态基础模型,专注于图像和视频理解。
一种新颖的图像到视频采样技术,基于Hunyuan模型实现高质量视频生成。
Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适