Gemini 2.0 是谷歌推出的最新一代生成式 AI 模型,包含 Flash、Flash-Lite 和 Pro 版本。
LLMs 无需任何培训就能看见和听见
Qwen2.5-VL 是一款强大的视觉语言模型,能够理解图像和视频内容并生成相应文本。
一个用于智能设备等的多模态原生代理框架。
Gemini 2.0 Flash Thinking Experimental 是一款增强推理模型,能够展示其思考过程以提升性能和可解释性。
大规模多模态推理与指令调优平台
下一代多模态智能模型
几行代码接入大模型
一个用于信息检索和生成的灵活高性能框架
先进的多模态大型语言模型系列
先进的多模态大型语言模型
多模态大型语言模型,提升视觉与语言的交互能力。
视觉语言模型,结合图像和文本信息进行智能处理。
多模态大型语言模型,支持图像与文本的交互理解。
自然语言编程,快速构建AI应用,Wordware官网入口网址
MMTryon是一款多模态多参考虚拟试衣框架,能够生成高质量的组合试穿结果,支持多种试穿物品和穿衣风格定制,MMTryon官网入口网址
Gemini 2.5 是谷歌最智能的 AI 模型,具备推理能力。
UniTok是一个用于视觉生成和理解的统一视觉分词器。
Magma-8B 是微软推出的一款多模态 AI 模型,能够处理图像和文本输入并生成文本输出。
SmolVLM-256M 是世界上最小的多模态模型,可高效处理图像和文本输入并生成文本输出。
Janus-Pro-7B 是一个新型的自回归框架,统一多模态理解和生成。
MiniCPM-o 2.6是一个强大的多模态大型语言模型,适用于视觉、语音和多模态直播。
多模态大型语言模型的优化与分析
多模态原生混合专家模型
低延迟、高质量的端到端语音交互模型
多模态语言模型,融合文本和语音
统一文本、音乐和动作生成模型
124B参数的多模态大型语言模型
先进的多模态图像生成模型,结合文本提示和视觉参考生成高质量图像。
基于InternViT-6B-448px-V1-5的增强版视觉模型
多模态大型模型,处理文本、图像和视频数据
多模态大型语言模型,展示卓越的整体性能。
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适