SmolVLM2 是一个专注于视频内容分析和生成的轻量化语言模型。
VideoRAG 是一个用于处理极长上下文视频的检索增强型生成框架。
Qwen2-VL-7B是最新的视觉语言模型,支持多模态理解和文本生成。
统一的代码库,用于微调大型多模态模型,lmms-finetune官网入口网址
增强文本与视觉任务处理能力的开源模型。
CUA 是一种能够通过图形界面与数字世界交互的通用接口。
VideoLLaMA3是前沿的多模态基础模型,专注于图像和视频理解。
LLMs 无需任何培训就能看见和听见
先进的多模态图像生成模型,结合文本提示和视觉参考生成高质量图像。
先进的多模态大型语言模型系列
多模态大型语言模型,融合视觉与语言理解。
Migician 是一个专注于多图像定位的多模态大语言模型,能够实现自由形式的多图像精确定位。
UniTok是一个用于视觉生成和理解的统一视觉分词器。
Kimi k1.5 是一个通过强化学习扩展的多模态语言模型,专注于提升推理和逻辑能力。
多模态大型语言模型的优化与分析
大规模多模态推理与指令调优平台
多模态原生混合专家模型
先进的多模态大型语言模型,具备卓越的多模态推理能力。
大规模多模态医学数据集,MedTrinity-25M官网入口网址
MMTryon是一款多模态多参考虚拟试衣框架,能够生成高质量的组合试穿结果,支持多种试穿物品和穿衣风格定制,MMTryon官网入口网址
一款支持多模态功能的全功能大语言模型安卓应用。
Qwen2.5-VL 是一款强大的视觉语言模型,能够理解图像和视频内容并生成相应文本。
一个用于智能设备等的多模态原生代理框架。
SmolVLM-256M 是世界上最小的多模态模型,可高效处理图像和文本输入并生成文本输出。
情感丰富的多模态语言模型
基于InternViT-6B-448px-V1-5的增强版视觉模型
多模态大型模型,处理文本、图像和视频数据
多模态大型语言模型,支持图像与文本的交互理解。
先进的多模态模型,支持图像和文本理解。Phi-3.5-vision官网入口网址
自然语言编程,快速构建AI应用,Wordware官网入口网址
Magma-8B 是微软推出的一款多模态 AI 模型,能够处理图像和文本输入并生成文本输出。
Doubao-1.5-pro 是一个高性能的稀疏 MoE 大语言模型,专注于推理性能与模型能力的极致平衡。
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适