多模态

Gemini 1.5 Flash

Google 一款轻量级、高效能的AI模型，专为大规模高频任务设计。Gemini 1.5 Flash官网入口网址

CogVLM2

第二代多模态预训练对话模型，CogVLM2官网入口网址

Falcon 2

Falcon 2 是一款开源、多语言、多模态的模型，具备图像到文本转换能力。Falcon 2官网入口网址

GPT4o.so

革命性AI技术，多模态智能互动，GPT4o.so官网入口网址

Phi-3-vision-128k-instruct

微软轻量级、先进的多模态模型，专注于文本和视觉的高质量推理密集数据。Phi-3-vision-128k-instruct官网入口网址

VideoLLaMA2-7B-16F-Base

大型视频语言模型，用于视觉问答和视频字幕生成。VideoLLaMA2-7B-16F-Base官网入口网址

GLM-4V-9B

开源多模态预训练模型，具备中英双语对话能力。GLM-4V-9B官网入口网址

Qmedia

专为内容创作者设计的AI内容搜索引擎，Qmedia官网入口网址

VideoLLaMA2-7B

大型视频-语言模型，提供视觉问答和视频字幕生成。VideoLLaMA2-7B官网入口网址

腾讯混元AI视频

腾讯混元AI视频是腾讯推出的强大的AI视频生成工具，具备高度的创新性和实用性。用户可以通过平台生成高质量的视频内容，支持创意视频制作、特效生成，动画与游戏开发，满足多样化的需求。

LLaVA-NeXT

大型多模态模型，处理多图像、视频和3D数据。LLaVA-NeXT官网入口网址

SiliconFlow

SiliconFlow（硅基流动）是生成式AI计算基础设施平台。SiliconFlow提供包括SiliconLLM大模型推理引擎、OneDiff高性能文生图/视频加速库，及SiliconCloud模型云服务平台等产品，降低AI模型部署和推理成本，提升用户体验。

Gemini 2.0 Flash-Lite

Gemini 2.0 Flash-Lite 是高效的语言模型，专为长文本处理和多种应用场景优化。

SmolVLM2

SmolVLM2 是一个专注于视频内容分析和生成的轻量化语言模型。

DeepSeek Japanese

DeepSeek 是一款先进的 AI 语言模型，擅长逻辑推理、数学和编程任务，提供免费使用。

ultravox-v0_4_1-llama-3_1-70b

多模态语音大型语言模型

Gemini 2.0 Pro

Gemini Pro 是 Google DeepMind 推出的高性能 AI 模型，专注于复杂任务处理和编程性能。

FlexRAG

一个用于信息检索和生成的灵活高性能框架

Emu3

下一代多模态智能模型

Pixtral-12B-2409

多模态12B参数模型，结合视觉编码器处理图像和文本。

Aquila-VL-2B-llava-qwen

视觉语言模型，结合图像和文本信息进行智能处理。

Janus-Pro-7B

Janus-Pro-7B 是一个新型的自回归框架，统一多模态理解和生成。

OpenAI Agents SDK

OpenAI Agents SDK 是一个用于构建自主智能体的开发工具包，简化多智能体工作流的编排。

UniTok

UniTok是一个用于视觉生成和理解的统一视觉分词器。

EgoLife

EgoLife是一个长期、多模态、多视角的日常生活AI助手项目，旨在推进长期上下文理解研究。

Valley

多模态大型模型，处理文本、图像和视频数据

Stable Diffusion 3.5 Medium

基于文本生成图像的多模态扩散变换器模型

Qwen2-VL-7B

Qwen2-VL-7B是最新的视觉语言模型，支持多模态理解和文本生成。

InternVL2_5-26B-MPO-AWQ

先进的多模态大型语言模型，具备卓越的多模态推理能力。

Mistral Small 3.1

增强文本与视觉任务处理能力的开源模型。

Spirit LM

多模态语言模型，融合文本和语音

Mini-Omni

开源多模态大型语言模型，支持实时语音输入和流式音频输出。Mini-Omni官网入口网址

OpeniTab