一个通用的多模态模型,可用于问答、图像描述等任务,idefics-80b官网入口网址
大型视频语言模型,提供视觉问答和视频字幕生成。VideoLLaMA2-7B-Base官网入口网址
大型视频-语言模型,提供视觉问答和视频字幕生成。VideoLLaMA2-7B官网入口网址
先进的多模态理解模型,融合视觉与语言能力。
多模态12B参数模型,结合视觉编码器处理图像和文本。
先进的大型混合专家视觉语言模型
多模态大型语言模型,提升视觉与语言的交互能力。
多模态大型语言模型,提升视觉和语言的综合理解能力
PaliGemma 2是一个强大的视觉-语言模型,支持多种视觉语言任务。
PaliGemma 2是一款强大的视觉-语言模型,支持多种语言的图像和文本处理任务。
总奖金超 233 万!
报名即将截止