多模态

MNN 大模型 Android App

一款支持多模态功能的全功能大语言模型安卓应用。

InternViT-6B-448px-V2_5

基于InternViT-6B-448px-V1-5的增强版视觉模型

POINTS-Qwen-2-5-7B-Chat

视觉语言模型的最新进展

Valley-Eagle-7B

多模态大型模型，处理文本、图像和视频数据

InternVL2_5-4B-MPO-AWQ

多模态大型语言模型，优化图像与文本交互能力

MedRAX

MedRAX是一个用于胸部X光片解读的医疗推理AI代理，整合多种分析工具，无需额外训练即可处理复杂医疗查询。

Qwen2vl-Flux

先进的多模态图像生成模型，结合文本提示和视觉参考生成高质量图像。

Aria-Base-64K

多模态原生Mixture-of-Experts模型

HunyuanCustom

多模态驱动的定制视频生成架构。

MILS

LLMs 无需任何培训就能看见和听见

InternVL2_5-2B-MPO

先进的多模态大型语言模型

InternVL2_5-4B

多模态大型语言模型，融合视觉与语言理解。

jina-clip-v2

多语言多模态嵌入模型，用于文本和图像检索。jina-clip-v2官网入口网址

M2RAG

用于多模态上下文中的检索增强生成的基准测试代码库。

Kimi k1.5

Kimi k1.5 是一个通过强化学习扩展的多模态语言模型，专注于提升推理和逻辑能力。

InternVL2_5-8B

多模态大型语言模型，支持图像与文本的交互理解。

InternVL2_5-1B

多模态大型语言模型，支持图像和文本理解

SEED-Story

SEED-Story是一款多模态长篇故事生成工具，结合文本和图像生成丰富连贯的故事，适用于故事创作和内容生成，SEED-Story官网入口网址

OmAgent.com

一个用于智能设备等的多模态原生代理框架。

MM1.5

多模态大型语言模型的优化与分析

lmms-finetune

统一的代码库，用于微调大型多模态模型，lmms-finetune官网入口网址

Gemini 2.0 Flash Thinking Experimental

Gemini 2.0 Flash Thinking Experimental 是一款增强推理模型，能够展示其思考过程以提升性能和可解释性。

DataChain

现代Python数据框库，专为人工智能设计。

Realtime API

低延迟的实时语音交互API

IP-Adapter

一个强大的工具，它通过引入图像提示来增强文本到图像扩散模型的能力。它的设计轻量且高效，易于部署和使用，同时支持广泛的应用场景，包括图像生成、转换和修复。通过解耦的交叉注意力机制，IP-Adapter能够更好地理解和利用图像信息，从而生成更准确、更丰富的图像内容，IP-Adapter官网入口网址

LLaMA-Omni

低延迟、高质量的端到端语音交互模型

UniMuMo

统一文本、音乐和动作生成模型

WePOINTS

WePOINTS项目，提供多模态模型的统一框架

Lumina-mGPT

多模态自回归模型，擅长文本生成图像，Lumina-mGPT官网入口网址

Qwen2.5-VL

Qwen2.5-VL 是一款强大的视觉语言模型，能够理解图像和视频内容并生成相应文本。

MedTrinity-25M

大规模多模态医学数据集，MedTrinity-25M官网入口网址

Bagel

BAGEL是一款开源的统一多模态模型，您可以在任何地方进行微调、精简和部署。

OpeniTab