ActivityNet-Caption Dataset 下载

俑晟

已于 2025-01-09 21:11:31 修改

阅读量729

点赞数 12

文章标签：深度学习 database

于 2025-01-09 20:53:07 首次发布

本文链接：https://blog.youkuaiyun.com/SHAOHUAJK/article/details/145042189

版权

ActivityNet Captions数据集

ActivityNet Captions数据库由20000个视频组成。每个视频都有多个句子描述的密集注释。ActivityNet Captions数据库将视频和一系列时序标注的语句联系在一起。每个语句覆盖了视频的某一特定片段，描述了出现的事件。这些事件持续的时间或长或短，对事件本身也没有限制，并且可以同时出现。ActivityNet Captions包含20000个视频，每个视频平均含有3.65个时序定位的描述语句，一共有100000条描述。我们发现每个视频的语句数量相对服从正态分布。除此之外，随着视频的持续时间增加，描述语句的数量也在增加。句子的平均长度为13.48个词，也符合正态分布。平均每个句子描述了36秒的事件，大约是相应视频的31%的内容。然而每个视频的完整语句描述了大概视频94.6%的内容，这一点说明每一段标注基本都能覆盖视频内的主要活动。我们还发现描述内容有10%的重叠，说明同时出现的事件会互相覆盖。