用于多模态上下文中的检索增强生成的基准测试代码库。
Magma-8B 是微软推出的一款多模态 AI 模型,能够处理图像和文本输入并生成文本输出。
MedRAX是一个用于胸部X光片解读的医疗推理AI代理,整合多种分析工具,无需额外训练即可处理复杂医疗查询。
Gemini 2.0 是谷歌推出的最新一代生成式 AI 模型,包含 Flash、Flash-Lite 和 Pro 版本。
Janus-Pro-7B 是一个新型的自回归框架,统一多模态理解和生成。
现代Python数据框库,专为人工智能设计。
大规模多模态推理与指令调优平台
情感丰富的多模态语言模型
低延迟的实时语音交互API
124B参数的多模态大型语言模型
先进的多模态大型语言模型系列
多模态大型模型,处理文本、图像和视频数据
多模态大型语言模型,展示卓越的整体性能
视觉语言模型的最新进展,集成微信AI的新技术
多模态大型语言模型,提升视觉与语言的交互能力。
多模态大型语言模型,支持图像与文本的深度交互
多模态大语言模型,提升多模态推理能力
SEED-Story是一款多模态长篇故事生成工具,结合文本和图像生成丰富连贯的故事,适用于故事创作和内容生成,SEED-Story官网入口网址
DeepSeek 是一款先进的 AI 语言模型,擅长逻辑推理、数学和编程任务,提供免费使用。
Phi-4-multimodal-instruct 是微软开发的轻量级多模态基础模型,支持文本、图像和音频输入。
Gemini 2.0 Flash-Lite 是高效的语言模型,专为长文本处理和多种应用场景优化。
CLaMP 3 是一个用于跨模态和跨语言音乐信息检索的统一框架。
一款支持多模态功能的全功能大语言模型安卓应用。
CUA 是一种能够通过图形界面与数字世界交互的通用接口。
Kimi k1.5 是一个通过强化学习扩展的多模态语言模型,专注于提升推理和逻辑能力。
VideoLLaMA3是前沿的多模态基础模型,专注于图像和视频理解。
Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。
LLMs 无需任何培训就能看见和听见
一个用于智能设备等的多模态原生代理框架。
SmolVLM-500M 是一个轻量级多模态模型,能够处理图像和文本输入并生成文本输出。
SmolVLM-256M 是世界上最小的多模态模型,可高效处理图像和文本输入并生成文本输出。
一个强大的工具,它通过引入图像提示来增强文本到图像扩散模型的能力。它的设计轻量且高效,易于部署和使用,同时支持广泛的应用场景,包括图像生成、转换和修复。通过解耦的交叉注意力机制,IP-Adapter能够更好地理解和利用图像信息,从而生成更准确、更丰富的图像内容,IP-Adapter官网入口网址
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适