图像描述

SceneXplain - 领先的AI解决方案，为您的图像和视频提供准确的描述和摘要，SceneXplain官网入口网址

为需要的人生成图像的描述性替代文本，GenAlt - Generate AI Alternate Text官网入口网址

一个通用的多模态模型，可用于问答、图像描述等任务，idefics-80b官网入口网址

自动生成丰富详细的图像描述，image-textualization官网入口网址

生成高质量图像描述的AI模型，HunyuanCaptioner官网入口网址

大规模图像描述数据集，提供超过16M的合成图像描述。PixelProse官网入口网址

先进的视觉基础模型，支持多种视觉和视觉-语言任务，Florence-2-large官网入口网址

Aya Vision 32B 是一个支持多语言的视觉语言模型，适用于OCR、图像描述、视觉推理等多种用途。

自动化为网站图片生成描述性文本

8亿参数的多语言视觉语言模型，支持OCR、图像描述、视觉推理等功能

LLMs 无需任何培训就能看见和听见

SmolVLM-500M 是一个轻量级多模态模型，能够处理图像和文本输入并生成文本输出。

多模态大型语言模型，提升视觉和语言的综合理解能力

多模态大型语言模型，提升视觉与语言的交互能力。

一个基于深度学习的图像和视频描述模型。

PaliGemma 2是一个强大的视觉-语言模型，支持多种视觉语言任务。

一个小型但功能强大的视觉语言模型，它使得资源有限的研究者和开发者也能体验到先进的视觉语言模型功能，Vary-toy官网入口网址

PaliGemma 2是一款强大的视觉-语言模型，支持多种语言的图像和文本处理任务。