ActivityNet Captions数据集
- ActivityNet Captions数据库由20000个视频组成。每个视频都有多个句子描述的密集注释。ActivityNet Captions数据库将视频和一系列时序标注的语句联系在一起。每个语句覆盖了视频的某一特定片段,描述了出现的事件。这些事件持续的时间或长或短,对事件本身也没有限制,并且可以同时出现。ActivityNet Captions包含20000个视频,每个视频平均含有3.65个时序定位的描述语句,一共有100000条描述。我们发现每个视频的语句数量相对服从正态分布。除此之外,随着视频的持续时间增加,描述语句的数量也在增加。句子的平均长度为13.48个词,也符合正态分布。平均每个句子描述了36秒的事件,大约是相应视频的31%的内容。然而每个视频的完整语句描述了大概视频94.6%的内容,这一点说明每一段标注基本都能覆盖视频内的主要活动。我们还发现描述内容有10%的重叠,说明同时出现的事件会互相覆盖。
下载方式
下载方式1
官方地址: https://github.com/activitynet/ActivityNet/tree/master/Crawler
下载方式2
百度网盘(内有查看视频MP4格式操作说明):
通过网盘分享的文件:activitynet caption
链接: https://pan.baidu.com/s/10bR45978LoTa6ON3mPeQoQ?pwd=9527 提取码: 9527