背景介绍
在现有的的行为分类数据集(UCF-101 and HMDB-51)中,视频数据的缺乏使得确定一个好的视频结构很困难,大部分方法在小规模数据集上取得差不多的效果。这篇文章根据Kinetics人类行为动作来重新评估这些先进的结构。Kinetics有两个数量级的数据,400类人类行为,每一类有超过400剪辑,并且这些都是从现实的,有挑战性的YouTube视频中收集的。我们分析了现有的结构在这个数据集上进行行为分类任务的过程以及在Kinetics上预训练后是如何提高在小样本集上的表现。
我们引入了一个基于二维卷积膨胀网络的Two-Stream Inflated 三维卷积网络(I3D):深度图像分类卷积网络中的滤波器和pooling卷积核推广到了3D的情况,这样能够学到从视频中提取好的时空特征的能力,同时可以利用ImageNet结构的设计以及参数;我们发现在Kinetics上预训练之后,I3D模型在行为分类上提高了很多,在HMDB-51上达到了80.7%的正确率,在UCF-101上达到了98.0%的正确率。
具体参考前面的介绍《Qua Vadis, Action Recognition? A New Model and the Kinetics Dataset》论文解读之Two-Stream I3D
今天主要介绍在UCF-101上的I3D finetune
相关的项目资源也是很多,这里简单列一下:
1.https://github.com/LossNAN/I3D-Tensorflow
2.https://github.com/piergiaj/pytorch-i3d
3.https://github.com/USTC-Video-Understanding/I3D_Finetune
4.https://github.com/hassony2/kinetics_i3d_pytorch
All this code is based on Deepmind's Kinetics-I3D. Including PyTorch versions of their models.
下面我们介绍下操作步骤。
# how to run this demo?about train,test .Follow these steps please. 1.Clone this repo:

本文详细介绍如何使用基于Two-Stream Inflated 3D ConvNets (I3D) 的深度学习模型在UCF-101数据集上进行fine-tune。I3D模型在Kinetics数据集上预训练,显著提升了行为识别性能。文章提供步骤指南,包括下载预训练模型、处理UCF-101和HMDB51数据集、转换图像列表及训练流程。
最低0.47元/天 解锁文章
1396





