多模态大型模型,处理文本、图像和视频数据
多模态大型语言模型,提升视觉与语言的交互能力。
基于Llama-3-8B的多模态大型语言模型,专注于UI任务。
多模态原生Mixture-of-Experts模型
Qwen2-VL-7B是最新的视觉语言模型,支持多模态理解和文本生成。
多模态大语言模型,提升多模态推理能力
自然语言编程,快速构建AI应用,Wordware官网入口网址
SmolVLM2 是一个专注于视频内容分析和生成的轻量化语言模型。
CLaMP 3 是一个用于跨模态和跨语言音乐信息检索的统一框架。
一款支持多模态功能的全功能大语言模型安卓应用。
Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。
Qwen2.5-VL 是一款强大的视觉语言模型,能够理解图像和视频内容并生成相应文本。
多模态语言模型,融合文本和语音
几行代码接入大模型
轻量级语言模型编程库,将提示视为函数。
多模态大型语言模型,展示卓越的整体性能。
多语言多模态嵌入模型,用于文本和图像检索。jina-clip-v2官网入口网址
高性能多模态语言模型,适用于图像和视频理解。MiniCPM-V 2.6官网入口网址
MMTryon是一款多模态多参考虚拟试衣框架,能够生成高质量的组合试穿结果,支持多种试穿物品和穿衣风格定制,MMTryon官网入口网址
VideoLLaMA3是前沿的多模态基础模型,专注于图像和视频理解。
SmolVLM-500M 是一个轻量级多模态模型,能够处理图像和文本输入并生成文本输出。
低延迟、高质量的端到端语音交互模型
多模态12B参数模型,结合视觉编码器处理图像和文本。
先进多模态大型语言模型系列
多模态大型语言模型,支持图像和文本理解
SEED-Story是一款多模态长篇故事生成工具,结合文本和图像生成丰富连贯的故事,适用于故事创作和内容生成,SEED-Story官网入口网址
BAGEL是一款开源的统一多模态模型,您可以在任何地方进行微调、精简和部署。
InternVL3开源:7种尺寸覆盖文、图、视频处理,多模态能力扩展至工业图像分析
基于 DiT 的人类图像动画框架,实现精细控制与长效一致性。
多模态大型语言模型,展示卓越的整体性能
国产化大模型,支持多模态,快速低成本智能化转型。
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适