MiniCPM-o 2.6是一个强大的多模态大型语言模型,适用于视觉、语音和多模态直播。
InternVL2.5-MPO系列模型,基于InternVL2.5和混合偏好优化,展现卓越性能。
多模态大型语言模型的优化与分析
下一代多模态智能模型
多模态原生混合专家模型
低延迟、高质量的端到端语音交互模型
统一文本、音乐和动作生成模型
几行代码接入大模型
轻量级语言模型编程库,将提示视为函数。
一个用于信息检索和生成的灵活高性能框架
基于InternViT-6B-448px-V1-5的增强版视觉模型
WePOINTS项目,提供多模态模型的统一框架
先进的多模态大型语言模型
定制化漫画生成模型,连接多模态LLMs和扩散模型。
基于孪生多模态扩散变换器的创意布局到图像生成技术
多模态12B参数模型,结合视觉编码器处理图像和文本。
国产化大模型,支持多模态,快速低成本智能化转型。
多模态大型语言模型,提升视觉和语言的综合理解能力
基于文本生成图像的多模态扩散变换器模型
基于Llama-3-8B的多模态大型语言模型,专注于UI任务。
视觉语言模型,结合图像和文本信息进行智能处理。
多模态语音大型语言模型
多模态原生Mixture-of-Experts模型
Qwen2-VL-7B是最新的视觉语言模型,支持多模态理解和文本生成。
先进多模态大型语言模型系列
多模态大型语言模型,支持图像与文本的交互理解。
多模态大型语言模型,支持图像和文本理解
多模态大型语言模型,融合视觉与语言理解。
视觉语言模型的最新进展
多模态大型模型,处理文本、图像和视频数据
开源多模态大型语言模型,支持实时语音输入和流式音频输出。Mini-Omni官网入口网址
多模态自回归模型,擅长文本生成图像,Lumina-mGPT官网入口网址
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适