视觉语言模型 - Home

视觉语言模型

提高文本到图像模型中空间一致性的解决方案，SPRIGHT官网入口网址

一个用于评估大型视觉语言模型的精英基准测试集，MMStar官网入口网址

基于视觉语言基础模型的胸部X光解读，CheXagent官网入口网址

支持同时理解和生成图像的多模态大型语言模型，MiniGemini官网入口网址

Google的尖端开放视觉语言模型，PaliGemma官网入口网址

InternLM-XComposer-2.5

一款多功能大型视觉语言模型，InternLM-XComposer-2.5官网入口网址

Aquila-VL-2B-llava-qwen

视觉语言模型，结合图像和文本信息进行智能处理。

Qwen2-VL-7B

Qwen2-VL-7B是最新的视觉语言模型，支持多模态理解和文本生成。

Ollama OCR for web

一个强大的OCR包，使用最先进的视觉语言模型提取图像中的文本。

DeepSeek-VL2

先进的多模态理解模型，融合视觉与语言能力。

vision-parse

利用视觉语言模型将PDF解析为Markdown。

DeepSeek-VL2-Tiny

先进的大型混合专家视觉语言模型

Aya Vision 8B

8亿参数的多语言视觉语言模型，支持OCR、图像描述、视觉推理等功能

SigLIP2 是谷歌推出的一种多语言视觉语言编码器，用于零样本图像分类。

Florence-VL

视觉语言模型增强工具，结合生成式视觉编码器和深度广度融合技术。

新一代视觉语言模型，更清晰地看世界。Qwen2-VL官网入口网址

POINTS-Yi-1.5-9B-Chat

视觉语言模型的最新进展，集成微信AI的新技术

在图像理解和文本处理任务上展现出卓越的性能，并通过定制化微调和本地部署，推动了AI技术的开放性和可访问性，Llama 3.2官网入口网址

POINTS-Qwen-2-5-7B-Chat

视觉语言模型的最新进展

VLM-R1 是一个稳定且通用的强化视觉语言模型，专注于视觉理解任务。