多模态 - Home

多模态

腾讯混元

探索腾讯混元，领先的中文AI语言模型，提供卓越的内容创作、多轮对话和逻辑推理能力。适用于文档编辑、会议助理、广告创意等场景，即将推出的多模态功能将进一步提升用户体验。体验腾讯元宝，您的智能AI助手，助力高效工作与生活，腾讯混元官网入口网址

Unified-IO 2

统一的多模态生成模型，Unified-IO 2官网入口网址

Gemini 2.5 是谷歌最智能的 AI 模型，具备推理能力。

一框架，统一所有语言模态，OneLLM官网入口网址

Runway gen2

一款多模态人工智能系统，可以根据文字、图片或视频剪辑生成新颖的视频。Runway gen2官网入口网址

MagicAvatar

多模态头像生成和动画，MagicAvatar官网入口网址

Google Gemini

基于多模态的 AI 模型，无缝进行图像、视频、音频和代码的推理，Google Gemini官网入口网址

Mini-Gemini

多模态AI模型，图像理解与生成兼备，Mini-Gemini官网入口网址

多模态AI开发助手，DevMind AI官网入口网址

端到端MLLM，实现精准引用和定位，ml-ferret官网入口网址

Pi-智能演示文档

AI驱动的演示文档制作平台

SeamlessM4T

一款基于多模态模型的语音翻译产品，支持近100种语言的自动语音识别、语音翻译、文本翻译、语音合成等功能。SeamlessM4T官网入口网址

AI多模态数据绑定，ImageBind官网入口网址

高效多模态大型语言模型，TinyGPT-V官网入口网址

多模态多视角视频数据集和基准挑战，Ego-Exo4D官网入口网址

Grok-1.5 Vision Preview

连接数字和物理世界的首款多模态模型，Grok-1.5 Vision Preview官网入口网址

多模态大型语言模型，Any GPT官网入口网址

idefics-80b

一个通用的多模态模型，可用于问答、图像描述等任务，idefics-80b官网入口网址

M-VADER是一款基于多模态上下文的图像生成模型，可以根据用户提供的图像和文本组合生成高质量的图像，M-VADER官网入口网址

多模态语言模型，SpeechGPT官网入口网址

强大的多模态LLM，商业解决方案，Reka Core官网入口网址

书生是一款基于大模型的人工智能开放平台，拥有多模态、语言和实景三维大模型三个核心产品，能够实现开放理解、多模态交互和跨模态生成等多种能力，书生官网入口网址

统一多模态视频生成系统，UniVG官网入口网址

Fireworks AI

基于开发者构建的生产 AI 平台，Fireworks AI官网入口网址

面向长期视频理解的大规模多模态模型，MA-LMM官网入口网址

一个用于评估大型视觉语言模型的精英基准测试集，MMStar官网入口网址

BuboGPT是一种先进的多模态语言模型，具有强大的视觉关联和音频理解能力，可以处理图像、音频和文本等多种模态的输入，并生成准确和详细的回应，BuboGPT官网入口网址

多模态音乐理解和生成系统，M2UGen官网入口网址

谷歌最新一代AI助手，Gemini 1.5官网入口网址

支持同时理解和生成图像的多模态大型语言模型，MiniGemini官网入口网址

GLM-4系列

开源多语言多模态对话模型，GLM-4系列官网入口网址

Tencent EMMA

多模态文本到图像生成模型，Tencent EMMA官网入口网址

12 3…5