一款由XTuner优化的LLaVA模型,结合了图像和文本处理能力。llava-llama-3-8b-v1_1官网入口网址
先进的文本到图像生成系统,Stable Diffusion 3 API官网入口网址
多模态知识图谱补全工具,MyGO官网入口网址
GPT-4是一种强大的生成式人工智能模型,具有多模态学习功能,可以处理文本、图像和声音等多种输入形式,适用于自然语言处理、图像处理和声音处理等多个应用场景,GPT-4 Demo官网入口网址
先进文本生成图像模型,Stable Diffusion 3 免费在线官网入口网址
基于llama3 8B的SOTA视觉模型,llama3v官网入口网址
大型视频语言模型,提供视觉问答和视频字幕生成。VideoLLaMA2-7B-Base官网入口网址
表情包视觉标注数据集,emo-visual-data官网入口网址
数学视觉指令调优模型,MAVIS官网入口网址
最新多模态检查点,提升语音理解能力。Llama3-s v0.2官网入口网址
先进的大型混合专家视觉语言模型
视频理解与推理的免训练大型语言模型。SlowFast-LLaVA官网入口网址
视频指令调优与合成数据研究
视频序列理解的GPU实现模型
MMAudio根据视频和/或文本输入生成同步音频。
视觉语言模型增强工具,结合生成式视觉编码器和深度广度融合技术。
基于InternViT-300M-448px的增强版本,提升视觉特征提取能力。
总奖金超 233 万!
报名即将截止