WIT(基于维基百科的图像文本)数据集是一个大型的多模态多语言数据集,包含超过3700万个图像文本集合,支持100多种语言,为多模态机器学习模型的训练和评估提供丰富的数据,WIT by Google AI官网入口网址
是一个多模态视频数据集,它为AI模型提供了丰富的上下文信息,使其能够更深入地理解视频内容。这个数据集在视频内容分析、情绪分析、故事叙述理解、媒体编辑和多模态学习等领域具有广泛的应用前景,FineVideo官网入口网址
大规模多模态预训练数据集
- 智能浏览器新标签页 -
完全免费 · 简洁大方功能丰富 · 高效舒适