Kinetics 数据库处理
本文仅为自己研究过程的一个随手记录,部分细节可能没有严格考证
kinetics数据库是当前较大规模的行为识别数据库,400类,training set 246k video, validation set 20k. 由于此前没有接触过视频数据库,而这个库又非常大,处理起来比较麻烦,记录一下。
- 下载
- mp4 -> jpg
下载
kinetics数据库的页面 , 里面没有现成的video,要根据提供的链接自己一个一个爬…好像看到有人说一个月也没爬多少。。不知真假。。。不过更严重的是里面部分链接已经被视频发布者删除或者转为私密模式了。non-local的作者Xiaolong Wang对kinetics短边按比例缩放到256保存了一个副本,github 链接 ,大约占132G, (原数据集400G+)云盘的下载链接要向他发邮件获取,由于图像大小有所损失,对data augmentation有影响,并且这个数据当时下载的时候大约有5%的video已经不存在了,所以性能会略有损失,(Xiaolong Wang:损失<0.5%)。132G的压缩包,下载速度10M/s,大约用了3.5h。