VIOLIN: 大规模视频与语言推理数据集
1. 项目基础介绍
本项目是针对视频与语言推理任务的一个大规模数据集,名为VIOLIN (VIdeO-and-Language INference)。该数据集是 CVPR 2020 论文“VIOLIN: A Large-Scale Dataset for Video-and-Language Inference”的一部分。项目主要使用 Python 编程语言实现。
2. 核心功能
项目核心功能是提供了一个用于视频与语言推理任务的大规模数据集。在这个任务中,模型需要根据视频片段及其对应的字幕前提,判断一个自然语言假设是否由视频片段所蕴含。数据集包含了95,322个视频-假设对,涵盖了582小时的视频内容(包括YouTube视频和电视剧片段)。此外,项目还提供了基线模型,用于对数据集进行训练和测试。
3. 最近更新的功能
- 数据发布:发布了字幕和假设语句,以及图像(ResNet)特征、C3D特征和检测特征(待完成)。
- 基线模型代码:公开了基线模型的代码,并计划提供排行榜。
- 模型训练和测试:支持使用字幕和/或视频特征进行模型的训练和测试。提供了详细的训练和测试指令,包括如何使用预训练的BERT模型。
- 数据下载:提供了数据下载指南,用户可以自行下载原始视频数据,并根据提供的字幕信息提取视频片段。
以上是项目的主要内容和最新更新,为视频与语言推理领域的研究提供了宝贵的资源。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



