视觉问答

一个通用的多模态模型，可用于问答、图像描述等任务，idefics-80b官网入口网址

大型视频语言模型，提供视觉问答和视频字幕生成。VideoLLaMA2-7B-Base官网入口网址

大型视频-语言模型，提供视觉问答和视频字幕生成。VideoLLaMA2-7B官网入口网址

多模态12B参数模型，结合视觉编码器处理图像和文本。

先进的多模态理解模型，融合视觉与语言能力。

一个用于智能设备等的多模态原生代理框架。

Phi-4-multimodal-instruct 是微软开发的轻量级多模态基础模型，支持文本、图像和音频输入。

SmolVLM-500M 是一个轻量级多模态模型，能够处理图像和文本输入并生成文本输出。

多模态大型语言模型，提升视觉和语言的综合理解能力

多模态大型语言模型，提升视觉与语言的交互能力。

先进的大型混合专家视觉语言模型

PaliGemma 2是一个强大的视觉-语言模型，支持多种视觉语言任务。

一个小型但功能强大的视觉语言模型，它使得资源有限的研究者和开发者也能体验到先进的视觉语言模型功能，Vary-toy官网入口网址

PaliGemma 2是一款强大的视觉-语言模型，支持多种语言的图像和文本处理任务。