多模态大型语言模型,提升视觉和语言的综合理解能力
基于Llama-3-8B的多模态大型语言模型,专注于UI任务。
SEED-Story是一款多模态长篇故事生成工具,结合文本和图像生成丰富连贯的故事,适用于故事创作和内容生成,SEED-Story官网入口网址
高性能多模态语言模型,适用于图像和视频理解。MiniCPM-V 2.6官网入口网址
CLaMP 3 是一个用于跨模态和跨语言音乐信息检索的统一框架。
一款支持多模态功能的全功能大语言模型安卓应用。
VideoLLaMA3是前沿的多模态基础模型,专注于图像和视频理解。
Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。
Gemini 2.0 Flash Thinking Experimental 是一款增强推理模型,能够展示其思考过程以提升性能和可解释性。
多模态原生混合专家模型
情感丰富的多模态语言模型
低延迟的实时语音交互API
多模态语言模型,融合文本和语音
轻量级语言模型编程库,将提示视为函数。
WePOINTS项目,提供多模态模型的统一框架
多模态大型语言模型,提升视觉与语言的交互能力。
Qwen2-VL-7B是最新的视觉语言模型,支持多模态理解和文本生成。
多模态大型语言模型,支持图像和文本理解
视觉语言模型的最新进展
多语言多模态嵌入模型,用于文本和图像检索。jina-clip-v2官网入口网址
自然语言编程,快速构建AI应用,Wordware官网入口网址
InternVL3开源:7种尺寸覆盖文、图、视频处理,多模态能力扩展至工业图像分析
几行代码接入大模型
多模态大型语言模型,展示卓越的整体性能。
多模态12B参数模型,结合视觉编码器处理图像和文本。
先进多模态大型语言模型系列
MMTryon是一款多模态多参考虚拟试衣框架,能够生成高质量的组合试穿结果,支持多种试穿物品和穿衣风格定制,MMTryon官网入口网址
多模态驱动的定制视频生成架构。
BAGEL是一款开源的统一多模态模型,您可以在任何地方进行微调、精简和部署。
基于 DiT 的人类图像动画框架,实现精细控制与长效一致性。
SmolVLM-500M 是一个轻量级多模态模型,能够处理图像和文本输入并生成文本输出。
低延迟、高质量的端到端语音交互模型
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适