面向长期视频理解的大规模多模态模型,MA-LMM官网入口网址
视频理解基础模型,VideoPrism官网入口网址
理解复杂视频,作诗配文的AI视频模型,MiniGPT4-Video官网入口网址
提升视频理解和生成的AI模型。ShareGPT4Video官网入口网址
大型视频-语言模型,提供视觉问答和视频字幕生成。VideoLLaMA2-7B官网入口网址
一款多功能大型视觉语言模型,InternLM-XComposer-2.5官网入口网址
VideoRAG 是一个用于处理极长上下文视频的检索增强型生成框架。
Qwen2.5-VL 是一款强大的视觉语言模型,能够理解图像和视频内容并生成相应文本。
Tarsier 是由字节跳动推出的用于生成高质量视频描述的大型视频语言模型。
VideoLLaMA3是前沿的多模态基础模型,专注于图像和视频理解。
一个用于智能设备等的多模态原生代理框架。
是一个多模态视频数据集,它为AI模型提供了丰富的上下文信息,使其能够更深入地理解视频内容。这个数据集在视频内容分析、情绪分析、故事叙述理解、媒体编辑和多模态学习等领域具有广泛的应用前景,FineVideo官网入口网址
视频指令调优与合成数据研究
多模态原生混合专家模型
长视频语言理解的时空自适应压缩模型
视频序列理解的GPU实现模型
大型多模态模型中视频理解的探索
AI视频生成提示库
视频理解领域的先进空间-时间建模与音频理解模型。
Qwen2-VL-7B是最新的视觉语言模型,支持多模态理解和文本生成。
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适