一款由XTuner优化的LLaVA模型,结合了图像和文本处理能力。llava-llama-3-8b-v1_1官网入口网址
先进的文本到图像生成系统,Stable Diffusion 3 API官网入口网址
多模态知识图谱补全工具,MyGO官网入口网址
GPT-4是一种强大的生成式人工智能模型,具有多模态学习功能,可以处理文本、图像和声音等多种输入形式,适用于自然语言处理、图像处理和声音处理等多个应用场景,GPT-4 Demo官网入口网址
先进文本生成图像模型,Stable Diffusion 3 免费在线官网入口网址
基于llama3 8B的SOTA视觉模型,llama3v官网入口网址
大型视频语言模型,提供视觉问答和视频字幕生成。VideoLLaMA2-7B-Base官网入口网址
表情包视觉标注数据集,emo-visual-data官网入口网址
数学视觉指令调优模型,MAVIS官网入口网址
先进的大型混合专家视觉语言模型
最新多模态检查点,提升语音理解能力。Llama3-s v0.2官网入口网址
视频理解与推理的免训练大型语言模型。SlowFast-LLaVA官网入口网址
覆盖了从个人使用到企业级应用的多个方面的多模态大模型,Step-1V官网入口网址
MGIE 是苹果团队开源的一款 AI 图像编辑工具,它利用多模态大模型来增强图像编辑的指令引导能力。用户只需拍摄照片并输入文字指令,MGIE 便能够自动进行图像编辑,实现用户所需的视觉效果,MGIE官网入口网址
创新的自监督学习模型,它通过预测视频帧的特征表示来学习视频的视觉表示。这种方法不仅能够处理视频内容,还能在图像任务上表现出色,具有广泛的应用潜力,V-JEPA官网入口网址
视频指令调优与合成数据研究
视频序列理解的GPU实现模型
MMAudio根据视频和/或文本输入生成同步音频。
视觉语言模型增强工具,结合生成式视觉编码器和深度广度融合技术。
基于InternViT-300M-448px的增强版本,提升视觉特征提取能力。
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适