多模态

Gemini 2.0 Family

Gemini 2.0 是谷歌推出的最新一代生成式 AI 模型，包含 Flash、Flash-Lite 和 Pro 版本。

MiniCPM-o-2_6

MiniCPM-o 2.6是一个强大的多模态大型语言模型，适用于视觉、语音和多模态直播。

EMOVA

情感丰富的多模态语言模型

CUA

CUA 是一种能够通过图形界面与数字世界交互的通用接口。

SmolVLM-256M-Instruct

SmolVLM-256M 是世界上最小的多模态模型，可高效处理图像和文本输入并生成文本输出。

InternVL2-8B-MPO

多模态大语言模型，提升多模态推理能力

Janus-Pro-1B

Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。

InternVL2_5-38B-MPO

InternVL2.5-MPO系列模型，基于InternVL2.5和混合偏好优化，展现卓越性能。

InternVL3

InternVL3开源：7种尺寸覆盖文、图、视频处理，多模态能力扩展至工业图像分析

MAmmoTH-VL

大规模多模态推理与指令调优平台

InternVL2_5-4B-MPO

多模态大型语言模型，展示卓越的整体性能

InternVL2_5-2B

多模态大型语言模型，支持图像与文本的深度交互

Wordware

自然语言编程，快速构建AI应用，Wordware官网入口网址

TheoremExplainAgent

TheoremExplainAgent 是一个用于生成多模态定理解释视频的智能系统。

智谱AI大模型开放平台

几行代码接入大模型

OneReach.ai

OneReach是一个用于创建高级多模态AI代理的平台，旨在提升员工和客户体验。

Magma-8B

Magma-8B 是微软推出的一款多模态 AI 模型，能够处理图像和文本输入并生成文本输出。

OmniHuman-1

OmniHuman-1 是一种基于单张人像和运动信号生成人类视频的多模态框架。

ell

轻量级语言模型编程库，将提示视为函数。

Migician

Migician 是一个专注于多图像定位的多模态大语言模型，能够实现自由形式的多图像精确定位。

VideoRAG

VideoRAG 是一个用于处理极长上下文视频的检索增强型生成框架。

InternVL2_5-38B

先进的多模态大型语言模型系列

Phi-3.5-vision

先进的多模态模型，支持图像和文本理解。Phi-3.5-vision官网入口网址

DreamActor-M1

基于 DiT 的人类图像动画框架，实现精细控制与长效一致性。

VideoLLaMA3

VideoLLaMA3是前沿的多模态基础模型，专注于图像和视频理解。

InternViT-6B-448px-V2_5

基于InternViT-6B-448px-V1-5的增强版视觉模型

Ferret-UI-Llama8b

基于Llama-3-8B的多模态大型语言模型，专注于UI任务。

Valley-Eagle-7B

多模态大型模型，处理文本、图像和视频数据

MMTryon

MMTryon是一款多模态多参考虚拟试衣框架，能够生成高质量的组合试穿结果，支持多种试穿物品和穿衣风格定制，MMTryon官网入口网址

Phi-4-multimodal-instruct

Phi-4-multimodal-instruct 是微软开发的轻量级多模态基础模型，支持文本、图像和音频输入。

MNN 大模型 Android App

一款支持多模态功能的全功能大语言模型安卓应用。

InternVL2_5-8B-MPO

多模态大型语言模型，展示卓越的整体性能。

OpeniTab