增强文本与视觉任务处理能力的开源模型。
多模态语言模型,融合文本和语音
几行代码接入大模型
InternVL3开源:7种尺寸覆盖文、图、视频处理,多模态能力扩展至工业图像分析
Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。
SmolVLM-256M 是世界上最小的多模态模型,可高效处理图像和文本输入并生成文本输出。
InternVL2.5-MPO系列模型,基于InternVL2.5和混合偏好优化,展现卓越性能。
轻量级语言模型编程库,将提示视为函数。
自然语言编程,快速构建AI应用,Wordware官网入口网址
EgoLife是一个长期、多模态、多视角的日常生活AI助手项目,旨在推进长期上下文理解研究。
VideoRAG 是一个用于处理极长上下文视频的检索增强型生成框架。
情感丰富的多模态语言模型
多模态大型语言模型,融合视觉与语言理解。
多模态大语言模型,提升多模态推理能力
OmniHuman-1 是一种基于单张人像和运动信号生成人类视频的多模态框架。
大规模多模态推理与指令调优平台
多模态大型语言模型,支持图像与文本的深度交互
多模态大型语言模型,优化图像与文本交互能力
Migician 是一个专注于多图像定位的多模态大语言模型,能够实现自由形式的多图像精确定位。
一款支持多模态功能的全功能大语言模型安卓应用。
先进的多模态图像生成模型,结合文本提示和视觉参考生成高质量图像。
多模态语音大型语言模型
基于 DiT 的人类图像动画框架,实现精细控制与长效一致性。
VideoLLaMA3是前沿的多模态基础模型,专注于图像和视频理解。
先进的多模态大型语言模型
先进的多模态模型,支持图像和文本理解。Phi-3.5-vision官网入口网址
MMTryon是一款多模态多参考虚拟试衣框架,能够生成高质量的组合试穿结果,支持多种试穿物品和穿衣风格定制,MMTryon官网入口网址
统一的代码库,用于微调大型多模态模型,lmms-finetune官网入口网址
TheoremExplainAgent 是一个用于生成多模态定理解释视频的智能系统。
Magma-8B 是微软推出的一款多模态 AI 模型,能够处理图像和文本输入并生成文本输出。
LLMs 无需任何培训就能看见和听见
基于InternViT-6B-448px-V1-5的增强版视觉模型
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适