VideoLLaMA3是前沿的多模态基础模型,专注于图像和视频理解。
Qwen2.5-VL 是一款强大的视觉语言模型,能够理解图像和视频内容并生成相应文本。
Gemini 2.0 Flash Thinking Experimental 是一款增强推理模型,能够展示其思考过程以提升性能和可解释性。
MiniCPM-o 2.6是一个强大的多模态大型语言模型,适用于视觉、语音和多模态直播。
InternVL2.5-MPO系列模型,基于InternVL2.5和混合偏好优化,展现卓越性能。
多模态原生混合专家模型
情感丰富的多模态语言模型
低延迟的实时语音交互API
WePOINTS项目,提供多模态模型的统一框架
多模态大型模型,处理文本、图像和视频数据
多模态大型语言模型,提升视觉和语言的综合理解能力
多模态大型语言模型,提升视觉与语言的交互能力。
基于Llama-3-8B的多模态大型语言模型,专注于UI任务。
多模态大型语言模型,支持图像和文本理解
视觉语言模型的最新进展
高性能多模态语言模型,适用于图像和视频理解。MiniCPM-V 2.6官网入口网址
自然语言编程,快速构建AI应用,Wordware官网入口网址
CLaMP 3 是一个用于跨模态和跨语言音乐信息检索的统一框架。
多模态语言模型,融合文本和语音
多模态12B参数模型,结合视觉编码器处理图像和文本。
国产化大模型,支持多模态,快速低成本智能化转型。
基于文本生成图像的多模态扩散变换器模型
Qwen2-VL-7B是最新的视觉语言模型,支持多模态理解和文本生成。
先进多模态大型语言模型系列
多语言多模态嵌入模型,用于文本和图像检索。jina-clip-v2官网入口网址
MMTryon是一款多模态多参考虚拟试衣框架,能够生成高质量的组合试穿结果,支持多种试穿物品和穿衣风格定制,MMTryon官网入口网址
多模态驱动的定制视频生成架构。
BAGEL是一款开源的统一多模态模型,您可以在任何地方进行微调、精简和部署。
InternVL3开源:7种尺寸覆盖文、图、视频处理,多模态能力扩展至工业图像分析
基于 DiT 的人类图像动画框架,实现精细控制与长效一致性。
SmolVLM-500M 是一个轻量级多模态模型,能够处理图像和文本输入并生成文本输出。
现代Python数据框库,专为人工智能设计。
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适