多模态原生混合专家模型
124B参数的多模态大型语言模型
先进的多模态图像生成模型,结合文本提示和视觉参考生成高质量图像。
先进的多模态大型语言模型系列
多模态大型语言模型,展示卓越的整体性能。
多模态12B参数模型,结合视觉编码器处理图像和文本。
多模态大型语言模型,支持图像与文本的深度交互
多模态大型语言模型,优化图像与文本交互能力
OpenAI Agents SDK 是一个用于构建自主智能体的开发工具包,简化多智能体工作流的编排。
SmolVLM2 是一个专注于视频内容分析和生成的轻量化语言模型。
TheoremExplainAgent 是一个用于生成多模态定理解释视频的智能系统。
Migician 是一个专注于多图像定位的多模态大语言模型,能够实现自由形式的多图像精确定位。
EgoLife是一个长期、多模态、多视角的日常生活AI助手项目,旨在推进长期上下文理解研究。
用于多模态上下文中的检索增强生成的基准测试代码库。
Magma-8B 是微软推出的一款多模态 AI 模型,能够处理图像和文本输入并生成文本输出。
MedRAX是一个用于胸部X光片解读的医疗推理AI代理,整合多种分析工具,无需额外训练即可处理复杂医疗查询。
一款支持多模态功能的全功能大语言模型安卓应用。
CUA 是一种能够通过图形界面与数字世界交互的通用接口。
一个用于智能设备等的多模态原生代理框架。
SmolVLM-500M 是一个轻量级多模态模型,能够处理图像和文本输入并生成文本输出。
SmolVLM-256M 是世界上最小的多模态模型,可高效处理图像和文本输入并生成文本输出。
Janus-Pro-7B 是一个新型的自回归框架,统一多模态理解和生成。
一个强大的工具,它通过引入图像提示来增强文本到图像扩散模型的能力。它的设计轻量且高效,易于部署和使用,同时支持广泛的应用场景,包括图像生成、转换和修复。通过解耦的交叉注意力机制,IP-Adapter能够更好地理解和利用图像信息,从而生成更准确、更丰富的图像内容,IP-Adapter官网入口网址
MiniCPM-o 2.6是一个强大的多模态大型语言模型,适用于视觉、语音和多模态直播。
InternVL2.5-MPO系列模型,基于InternVL2.5和混合偏好优化,展现卓越性能。
下一代多模态智能模型
情感丰富的多模态语言模型
多模态语言模型,融合文本和语音
统一文本、音乐和动作生成模型
几行代码接入大模型
一个用于信息检索和生成的灵活高性能框架
基于InternViT-6B-448px-V1-5的增强版视觉模型
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适