基于InternViT-6B-448px-V1-5的增强版视觉模型
多模态大型语言模型,展示卓越的整体性能。
基于Llama-3-8B的多模态大型语言模型,专注于UI任务。
多模态原生Mixture-of-Experts模型
多模态大型语言模型,支持图像与文本的交互理解。
多语言多模态嵌入模型,用于文本和图像检索。jina-clip-v2官网入口网址
OneReach是一个用于创建高级多模态AI代理的平台,旨在提升员工和客户体验。
多模态大型语言模型的优化与分析
多模态大型语言模型,支持图像和文本理解
SEED-Story是一款多模态长篇故事生成工具,结合文本和图像生成丰富连贯的故事,适用于故事创作和内容生成,SEED-Story官网入口网址
一个强大的统一多模态模型,支持文本到图像生成及图像编辑。
多模态驱动的定制视频生成架构。
用于多模态上下文中的检索增强生成的基准测试代码库。
Qwen2.5-VL 是一款强大的视觉语言模型,能够理解图像和视频内容并生成相应文本。
一个用于智能设备等的多模态原生代理框架。
多模态原生混合专家模型
WePOINTS项目,提供多模态模型的统一框架
定制化漫画生成模型,连接多模态LLMs和扩散模型。
多模态大型语言模型,提升视觉与语言的交互能力。
视觉语言模型的最新进展
开源多模态大型语言模型,支持实时语音输入和流式音频输出。Mini-Omni官网入口网址
MedRAX是一个用于胸部X光片解读的医疗推理AI代理,整合多种分析工具,无需额外训练即可处理复杂医疗查询。
Kimi k1.5 是一个通过强化学习扩展的多模态语言模型,专注于提升推理和逻辑能力。
Gemini 2.0 Flash Thinking Experimental 是一款增强推理模型,能够展示其思考过程以提升性能和可解释性。
低延迟、高质量的端到端语音交互模型
低延迟的实时语音交互API
统一文本、音乐和动作生成模型
视觉语言模型的最新进展,集成微信AI的新技术
大规模多模态医学数据集,MedTrinity-25M官网入口网址
Phi-4-multimodal-instruct 是微软开发的轻量级多模态基础模型,支持文本、图像和音频输入。
Doubao-1.5-pro 是一个高性能的稀疏 MoE 大语言模型,专注于推理性能与模型能力的极致平衡。
124B参数的多模态大型语言模型
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适