多模态学习

一款由XTuner优化的LLaVA模型，结合了图像和文本处理能力。llava-llama-3-8b-v1_1官网入口网址

先进的文本到图像生成系统，Stable Diffusion 3 API官网入口网址

多模态知识图谱补全工具，MyGO官网入口网址

GPT-4是一种强大的生成式人工智能模型，具有多模态学习功能，可以处理文本、图像和声音等多种输入形式，适用于自然语言处理、图像处理和声音处理等多个应用场景，GPT-4 Demo官网入口网址

先进文本生成图像模型，Stable Diffusion 3 免费在线官网入口网址

基于llama3 8B的SOTA视觉模型，llama3v官网入口网址

大型视频语言模型，提供视觉问答和视频字幕生成。VideoLLaMA2-7B-Base官网入口网址

表情包视觉标注数据集，emo-visual-data官网入口网址

数学视觉指令调优模型，MAVIS官网入口网址

视频指令调优与合成数据研究

最新多模态检查点，提升语音理解能力。Llama3-s v0.2官网入口网址

视觉语言模型增强工具，结合生成式视觉编码器和深度广度融合技术。

覆盖了从个人使用到企业级应用的多个方面的多模态大模型，Step-1V官网入口网址

视频理解与推理的免训练大型语言模型。SlowFast-LLaVA官网入口网址

视频序列理解的GPU实现模型

MGIE 是苹果团队开源的一款 AI 图像编辑工具，它利用多模态大模型来增强图像编辑的指令引导能力。用户只需拍摄照片并输入文字指令，MGIE 便能够自动进行图像编辑，实现用户所需的视觉效果，MGIE官网入口网址

MMAudio根据视频和/或文本输入生成同步音频。

先进的大型混合专家视觉语言模型

创新的自监督学习模型，它通过预测视频帧的特征表示来学习视频的视觉表示。这种方法不仅能够处理视频内容，还能在图像任务上表现出色，具有广泛的应用潜力，V-JEPA官网入口网址

基于InternViT-300M-448px的增强版本，提升视觉特征提取能力。