第二代多模态预训练对话模型,CogVLM2官网入口网址
Google 一款轻量级、高效能的AI模型,专为大规模高频任务设计。Gemini 1.5 Flash官网入口网址
Falcon 2 是一款开源、多语言、多模态的模型,具备图像到文本转换能力。Falcon 2官网入口网址
革命性AI技术,多模态智能互动,GPT4o.so官网入口网址
微软轻量级、先进的多模态模型,专注于文本和视觉的高质量推理密集数据。Phi-3-vision-128k-instruct官网入口网址
大型视频语言模型,用于视觉问答和视频字幕生成。VideoLLaMA2-7B-16F-Base官网入口网址
开源多模态预训练模型,具备中英双语对话能力。GLM-4V-9B官网入口网址
专为内容创作者设计的AI内容搜索引擎,Qmedia官网入口网址
大型视频-语言模型,提供视觉问答和视频字幕生成。VideoLLaMA2-7B官网入口网址
大型多模态模型,处理多图像、视频和3D数据。LLaVA-NeXT官网入口网址
腾讯混元AI视频是腾讯推出的强大的AI视频生成工具,具备高度的创新性和实用性。用户可以通过平台生成高质量的视频内容,支持创意视频制作、特效生成,动画与游戏开发,满足多样化的需求。
SiliconFlow(硅基流动)是生成式AI计算基础设施平台。SiliconFlow提供包括SiliconLLM大模型推理引擎、OneDiff高性能文生图/视频加速库,及SiliconCloud模型云服务平台等产品,降低AI模型部署和推理成本,提升用户体验。
DeepSeek 是一款先进的 AI 语言模型,擅长逻辑推理、数学和编程任务,提供免费使用。
Gemini 2.0 Flash-Lite 是高效的语言模型,专为长文本处理和多种应用场景优化。
下一代多模态智能模型
Gemini Pro 是 Google DeepMind 推出的高性能 AI 模型,专注于复杂任务处理和编程性能。
Janus-Pro-7B 是一个新型的自回归框架,统一多模态理解和生成。
几行代码接入大模型
一个用于信息检索和生成的灵活高性能框架
OpenAI Agents SDK 是一个用于构建自主智能体的开发工具包,简化多智能体工作流的编排。
Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。
视觉语言模型,结合图像和文本信息进行智能处理。
多模态大型模型,处理文本、图像和视频数据
InternVL3开源:7种尺寸覆盖文、图、视频处理,多模态能力扩展至工业图像分析
EgoLife是一个长期、多模态、多视角的日常生活AI助手项目,旨在推进长期上下文理解研究。
Gemini 2.0 是谷歌推出的最新一代生成式 AI 模型,包含 Flash、Flash-Lite 和 Pro 版本。
MiniCPM-o 2.6是一个强大的多模态大型语言模型,适用于视觉、语音和多模态直播。
轻量级语言模型编程库,将提示视为函数。
多模态12B参数模型,结合视觉编码器处理图像和文本。
多模态大型语言模型,支持图像与文本的深度交互
多模态大语言模型,提升多模态推理能力
多模态大型语言模型,优化图像与文本交互能力
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适