MMTryon是一款多模态多参考虚拟试衣框架,能够生成高质量的组合试穿结果,支持多种试穿物品和穿衣风格定制,MMTryon官网入口网址
SmolVLM2 是一个专注于视频内容分析和生成的轻量化语言模型。
CLaMP 3 是一个用于跨模态和跨语言音乐信息检索的统一框架。
一款支持多模态功能的全功能大语言模型安卓应用。
SmolVLM-500M 是一个轻量级多模态模型,能够处理图像和文本输入并生成文本输出。
Janus-Pro-7B 是一个新型的自回归框架,统一多模态理解和生成。
低延迟、高质量的端到端语音交互模型
多模态语言模型,融合文本和语音
统一文本、音乐和动作生成模型
多模态大型语言模型,展示卓越的整体性能。
多模态大型语言模型,提升视觉和语言的综合理解能力
基于Llama-3-8B的多模态大型语言模型,专注于UI任务。
多模态原生Mixture-of-Experts模型
Qwen2-VL-7B是最新的视觉语言模型,支持多模态理解和文本生成。
多模态大型语言模型,融合视觉与语言理解。
多语言多模态嵌入模型,用于文本和图像检索。jina-clip-v2官网入口网址
高性能多模态语言模型,适用于图像和视频理解。MiniCPM-V 2.6官网入口网址
VideoLLaMA3是前沿的多模态基础模型,专注于图像和视频理解。
Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。
轻量级语言模型编程库,将提示视为函数。
WePOINTS项目,提供多模态模型的统一框架
定制化漫画生成模型,连接多模态LLMs和扩散模型。
多模态12B参数模型,结合视觉编码器处理图像和文本。
多模态大型语言模型,支持图像和文本理解
多模态大型模型,处理文本、图像和视频数据
开源多模态大型语言模型,支持实时语音输入和流式音频输出。Mini-Omni官网入口网址
SEED-Story是一款多模态长篇故事生成工具,结合文本和图像生成丰富连贯的故事,适用于故事创作和内容生成,SEED-Story官网入口网址
一个强大的工具,它通过引入图像提示来增强文本到图像扩散模型的能力。它的设计轻量且高效,易于部署和使用,同时支持广泛的应用场景,包括图像生成、转换和修复。通过解耦的交叉注意力机制,IP-Adapter能够更好地理解和利用图像信息,从而生成更准确、更丰富的图像内容,IP-Adapter官网入口网址
国产化大模型,支持多模态,快速低成本智能化转型。
基于文本生成图像的多模态扩散变换器模型
先进多模态大型语言模型系列
视觉语言模型的最新进展
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适