视觉语言模型的最新进展
多模态大型语言模型,优化图像与文本交互能力
一个强大的统一多模态模型,支持文本到图像生成及图像编辑。
MedRAX是一个用于胸部X光片解读的医疗推理AI代理,整合多种分析工具,无需额外训练即可处理复杂医疗查询。
先进的多模态大型语言模型
多模态原生Mixture-of-Experts模型
多语言多模态嵌入模型,用于文本和图像检索。jina-clip-v2官网入口网址
用于多模态上下文中的检索增强生成的基准测试代码库。
LLMs 无需任何培训就能看见和听见
先进的多模态图像生成模型,结合文本提示和视觉参考生成高质量图像。
定制化漫画生成模型,连接多模态LLMs和扩散模型。
多模态大型语言模型,融合视觉与语言理解。
多模态驱动的定制视频生成架构。
一个用于智能设备等的多模态原生代理框架。
多模态大型语言模型的优化与分析
多模态原生混合专家模型
多模态大型语言模型,支持图像与文本的交互理解。
多模态大型语言模型,支持图像和文本理解
统一的代码库,用于微调大型多模态模型,lmms-finetune官网入口网址
Kimi k1.5 是一个通过强化学习扩展的多模态语言模型,专注于提升推理和逻辑能力。
Gemini 2.0 Flash Thinking Experimental 是一款增强推理模型,能够展示其思考过程以提升性能和可解释性。
低延迟的实时语音交互API
现代Python数据框库,专为人工智能设计。
SEED-Story是一款多模态长篇故事生成工具,结合文本和图像生成丰富连贯的故事,适用于故事创作和内容生成,SEED-Story官网入口网址
低延迟、高质量的端到端语音交互模型
统一文本、音乐和动作生成模型
WePOINTS项目,提供多模态模型的统一框架
大规模多模态医学数据集,MedTrinity-25M官网入口网址
多模态自回归模型,擅长文本生成图像,Lumina-mGPT官网入口网址
Qwen2.5-VL 是一款强大的视觉语言模型,能够理解图像和视频内容并生成相应文本。
基于孪生多模态扩散变换器的创意布局到图像生成技术
视觉语言模型的最新进展,集成微信AI的新技术
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适