多模态语言模型,融合文本和语音
基于文本生成图像的多模态扩散变换器模型
基于Llama-3-8B的多模态大型语言模型,专注于UI任务。
多模态原生Mixture-of-Experts模型
SEED-Story是一款多模态长篇故事生成工具,结合文本和图像生成丰富连贯的故事,适用于故事创作和内容生成,SEED-Story官网入口网址
多模态自回归模型,擅长文本生成图像,Lumina-mGPT官网入口网址
OmniHuman-1 是一种基于单张人像和运动信号生成人类视频的多模态框架。
统一文本、音乐和动作生成模型
定制化漫画生成模型,连接多模态LLMs和扩散模型。
视觉语言模型的最新进展,集成微信AI的新技术
多模态大型语言模型,提升视觉和语言的综合理解能力
Gemini 2.0 Flash Thinking Experimental 是一款增强推理模型,能够展示其思考过程以提升性能和可解释性。
InternVL2.5-MPO系列模型,基于InternVL2.5和混合偏好优化,展现卓越性能。
低延迟、高质量的端到端语音交互模型
124B参数的多模态大型语言模型
WePOINTS项目,提供多模态模型的统一框架
多模态大型语言模型,提升视觉与语言的交互能力。
基于 DiT 的人类图像动画框架,实现精细控制与长效一致性。
用于多模态上下文中的检索增强生成的基准测试代码库。
MedRAX是一个用于胸部X光片解读的医疗推理AI代理,整合多种分析工具,无需额外训练即可处理复杂医疗查询。
低延迟的实时语音交互API
先进的多模态大型语言模型
多模态大型语言模型,展示卓越的整体性能。
多模态大型语言模型,支持图像和文本理解
高性能多模态语言模型,适用于图像和视频理解。MiniCPM-V 2.6官网入口网址
OneReach是一个用于创建高级多模态AI代理的平台,旨在提升员工和客户体验。
多模态驱动的定制视频生成架构。
TheoremExplainAgent 是一个用于生成多模态定理解释视频的智能系统。
多模态语音大型语言模型
视觉语言模型的最新进展
多语言多模态嵌入模型,用于文本和图像检索。jina-clip-v2官网入口网址
基于孪生多模态扩散变换器的创意布局到图像生成技术
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适