先进的多模态大型语言模型
多模态大型语言模型,支持图像和文本理解
高性能多模态语言模型,适用于图像和视频理解。MiniCPM-V 2.6官网入口网址
自然语言编程,快速构建AI应用,Wordware官网入口网址
基于 DiT 的人类图像动画框架,实现精细控制与长效一致性。
TheoremExplainAgent 是一个用于生成多模态定理解释视频的智能系统。
用于多模态上下文中的检索增强生成的基准测试代码库。
Gemini 2.0 是谷歌推出的最新一代生成式 AI 模型,包含 Flash、Flash-Lite 和 Pro 版本。
Qwen2.5-VL 是一款强大的视觉语言模型,能够理解图像和视频内容并生成相应文本。
InternVL2.5-MPO系列模型,基于InternVL2.5和混合偏好优化,展现卓越性能。
多模态原生混合专家模型
情感丰富的多模态语言模型
低延迟的实时语音交互API
WePOINTS项目,提供多模态模型的统一框架
多模态大型模型,处理文本、图像和视频数据
多模态大型语言模型,展示卓越的整体性能。
多模态12B参数模型,结合视觉编码器处理图像和文本。
国产化大模型,支持多模态,快速低成本智能化转型。
多模态大型语言模型,提升视觉和语言的综合理解能力
多模态大型语言模型,提升视觉与语言的交互能力。
基于文本生成图像的多模态扩散变换器模型
基于Llama-3-8B的多模态大型语言模型,专注于UI任务。
Qwen2-VL-7B是最新的视觉语言模型,支持多模态理解和文本生成。
视觉语言模型的最新进展
MMTryon是一款多模态多参考虚拟试衣框架,能够生成高质量的组合试穿结果,支持多种试穿物品和穿衣风格定制,MMTryon官网入口网址
CLaMP 3 是一个用于跨模态和跨语言音乐信息检索的统一框架。
SmolVLM-500M 是一个轻量级多模态模型,能够处理图像和文本输入并生成文本输出。
多模态语言模型,融合文本和语音
先进多模态大型语言模型系列
多语言多模态嵌入模型,用于文本和图像检索。jina-clip-v2官网入口网址
开源多模态大型语言模型,支持实时语音输入和流式音频输出。Mini-Omni官网入口网址
多模态驱动的定制视频生成架构。
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适