一款支持多模态功能的全功能大语言模型安卓应用。
基于InternViT-6B-448px-V1-5的增强版视觉模型
视觉语言模型的最新进展
多模态大型模型,处理文本、图像和视频数据
多模态大型语言模型,优化图像与文本交互能力
MedRAX是一个用于胸部X光片解读的医疗推理AI代理,整合多种分析工具,无需额外训练即可处理复杂医疗查询。
先进的多模态图像生成模型,结合文本提示和视觉参考生成高质量图像。
多模态原生Mixture-of-Experts模型
多模态驱动的定制视频生成架构。
LLMs 无需任何培训就能看见和听见
先进的多模态大型语言模型
多模态大型语言模型,融合视觉与语言理解。
多语言多模态嵌入模型,用于文本和图像检索。jina-clip-v2官网入口网址
用于多模态上下文中的检索增强生成的基准测试代码库。
Kimi k1.5 是一个通过强化学习扩展的多模态语言模型,专注于提升推理和逻辑能力。
多模态大型语言模型,支持图像与文本的交互理解。
多模态大型语言模型,支持图像和文本理解
SEED-Story是一款多模态长篇故事生成工具,结合文本和图像生成丰富连贯的故事,适用于故事创作和内容生成,SEED-Story官网入口网址
一个用于智能设备等的多模态原生代理框架。
多模态大型语言模型的优化与分析
统一的代码库,用于微调大型多模态模型,lmms-finetune官网入口网址
Gemini 2.0 Flash Thinking Experimental 是一款增强推理模型,能够展示其思考过程以提升性能和可解释性。
现代Python数据框库,专为人工智能设计。
低延迟的实时语音交互API
一个强大的工具,它通过引入图像提示来增强文本到图像扩散模型的能力。它的设计轻量且高效,易于部署和使用,同时支持广泛的应用场景,包括图像生成、转换和修复。通过解耦的交叉注意力机制,IP-Adapter能够更好地理解和利用图像信息,从而生成更准确、更丰富的图像内容,IP-Adapter官网入口网址
低延迟、高质量的端到端语音交互模型
统一文本、音乐和动作生成模型
WePOINTS项目,提供多模态模型的统一框架
多模态自回归模型,擅长文本生成图像,Lumina-mGPT官网入口网址
Qwen2.5-VL 是一款强大的视觉语言模型,能够理解图像和视频内容并生成相应文本。
大规模多模态医学数据集,MedTrinity-25M官网入口网址
BAGEL是一款开源的统一多模态模型,您可以在任何地方进行微调、精简和部署。
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适