Gemini 2.0 是谷歌推出的最新一代生成式 AI 模型,包含 Flash、Flash-Lite 和 Pro 版本。
MiniCPM-o 2.6是一个强大的多模态大型语言模型,适用于视觉、语音和多模态直播。
情感丰富的多模态语言模型
CUA 是一种能够通过图形界面与数字世界交互的通用接口。
SmolVLM-256M 是世界上最小的多模态模型,可高效处理图像和文本输入并生成文本输出。
多模态大语言模型,提升多模态推理能力
Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。
InternVL2.5-MPO系列模型,基于InternVL2.5和混合偏好优化,展现卓越性能。
InternVL3开源:7种尺寸覆盖文、图、视频处理,多模态能力扩展至工业图像分析
大规模多模态推理与指令调优平台
多模态大型语言模型,展示卓越的整体性能
多模态大型语言模型,支持图像与文本的深度交互
自然语言编程,快速构建AI应用,Wordware官网入口网址
TheoremExplainAgent 是一个用于生成多模态定理解释视频的智能系统。
几行代码接入大模型
OneReach是一个用于创建高级多模态AI代理的平台,旨在提升员工和客户体验。
Magma-8B 是微软推出的一款多模态 AI 模型,能够处理图像和文本输入并生成文本输出。
OmniHuman-1 是一种基于单张人像和运动信号生成人类视频的多模态框架。
轻量级语言模型编程库,将提示视为函数。
Migician 是一个专注于多图像定位的多模态大语言模型,能够实现自由形式的多图像精确定位。
VideoRAG 是一个用于处理极长上下文视频的检索增强型生成框架。
先进的多模态大型语言模型系列
先进的多模态模型,支持图像和文本理解。Phi-3.5-vision官网入口网址
基于 DiT 的人类图像动画框架,实现精细控制与长效一致性。
VideoLLaMA3是前沿的多模态基础模型,专注于图像和视频理解。
基于InternViT-6B-448px-V1-5的增强版视觉模型
基于Llama-3-8B的多模态大型语言模型,专注于UI任务。
多模态大型模型,处理文本、图像和视频数据
MMTryon是一款多模态多参考虚拟试衣框架,能够生成高质量的组合试穿结果,支持多种试穿物品和穿衣风格定制,MMTryon官网入口网址
Phi-4-multimodal-instruct 是微软开发的轻量级多模态基础模型,支持文本、图像和音频输入。
一款支持多模态功能的全功能大语言模型安卓应用。
多模态大型语言模型,展示卓越的整体性能。
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适