视觉理解

Video-LLaVA

学习联合视觉表示通过对齐前投影，Video-LLaVA官网入口网址

MMBench

MMBench是一个评估大型多模态AI模型性能的平台，提供了一个排行榜展示各种模型在不同任务上的得分情况，帮助用户选择适合自己需求的模型，MMBench官网入口网址

GLM-4V-9B

开源多模态预训练模型，具备中英双语对话能力。GLM-4V-9B官网入口网址

MiniCPM-o-2_6

MiniCPM-o 2.6是一个强大的多模态大型语言模型，适用于视觉、语音和多模态直播。

UniTok

UniTok是一个用于视觉生成和理解的统一视觉分词器。

豆包大模型

豆包大模型是字节跳动推出的AI大模型家族，包括豆包PixelDance、豆包Seaweed 视频生成、文生图、图生图、同声传译、角色扮演、语音合成、声音复刻、语音识别、Function Call和向量化等多个模型。豆包大模型具备强大的语言理解、生成和逻辑能力，能进行个性化创作、情绪丰富的语音合成、高精度语音识别、多风格图像生成和顶级的视频生成。

Qwen2-VL-72B

最新的视觉语言模型，支持多语言和多模态理解

PromptPilot

面向大模型的智能解决方案平台，自动优化多任务。

视觉理解

OpeniTab