轻量级语言模型编程库,将提示视为函数。
一个用于信息检索和生成的灵活高性能框架
先进的多模态大型语言模型系列
基于InternViT-6B-448px-V1-5的增强版视觉模型
Qwen2-VL-7B是最新的视觉语言模型,支持多模态理解和文本生成。
多模态大语言模型,提升多模态推理能力
多模态大型模型,处理文本、图像和视频数据
先进的多模态模型,支持图像和文本理解。Phi-3.5-vision官网入口网址
统一的代码库,用于微调大型多模态模型,lmms-finetune官网入口网址
SmolVLM2 是一个专注于视频内容分析和生成的轻量化语言模型。
UniTok是一个用于视觉生成和理解的统一视觉分词器。
Magma-8B 是微软推出的一款多模态 AI 模型,能够处理图像和文本输入并生成文本输出。
SmolVLM-256M 是世界上最小的多模态模型,可高效处理图像和文本输入并生成文本输出。
多模态原生Mixture-of-Experts模型
多模态大型语言模型,融合视觉与语言理解。
先进的多模态大型语言模型,具备卓越的多模态推理能力。
SEED-Story是一款多模态长篇故事生成工具,结合文本和图像生成丰富连贯的故事,适用于故事创作和内容生成,SEED-Story官网入口网址
增强文本与视觉任务处理能力的开源模型。
VideoRAG 是一个用于处理极长上下文视频的检索增强型生成框架。
OmniHuman-1 是一种基于单张人像和运动信号生成人类视频的多模态框架。
Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。
LLMs 无需任何培训就能看见和听见
大规模多模态推理与指令调优平台
下一代多模态智能模型
统一文本、音乐和动作生成模型
124B参数的多模态大型语言模型
先进的多模态大型语言模型
定制化漫画生成模型,连接多模态LLMs和扩散模型。
多模态12B参数模型,结合视觉编码器处理图像和文本。
视觉语言模型的最新进展,集成微信AI的新技术
多模态大型语言模型,支持图像与文本的交互理解。
基于 DiT 的人类图像动画框架,实现精细控制与长效一致性。
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适