I3D阅读笔记

I3D阅读笔记

Paper:Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

视频动作分类框架

视频动作分类框架
K表示视频中的所有帧,N表示视频中相邻帧的子集。(a)(b)©(d)是之前提出过的工作,本文提出的New model如图(e)。

本文主要贡献

由论文题目可知主要贡献分为两部分:一是提出了一个新模型,二是提出了Kinetics数据集。

新模型:Two-Stream Inflated 3D ConvNets

将2D卷积网络扩展到3D。 就是对2D框架中所有的卷积核及池化核赋予一个额外的时间维度,即 N × N N\times N N×N扩充为 N × N × N N\times N\times N N×N×N

由2D卷积核来引导3D卷积核。 我们希望能够从预训练的ImageNet模型中提取参数。将一张图片不断重复成一段视频序列,这种视频称为boring video。然后,3D模型可以在ImageNet上进行隐式预训练,通过满足我们所说的boring-video固定点:boring-video上的池化激活应该与原始的单张图像输入相同。由于线性性,这可以通过沿时间维度重复 N N N次2D滤波器的权重,并通过除以 N N N重新调整它们来实现。这样确保了卷积滤波响应都是相同的。

感受野在空间、时间和网络深度上的增长。 乏味的视频定点为如何沿着时间维度扩展池化操作符以及如何设置卷积/池化的时间步长提供了充足的自由,这些是决定特征感受野大小的主要因素。实际上,所有的图像模型都将两个空间维度(水平和垂直)平等地共享内核,而且跨距是相同的。这是很自然的,这意味着在网络中较深的特征同样会受到在两个维度中越来越远的图像位置的影响。然而,当也考虑时间时,不一定是最佳的,这应该取决于帧率和图像尺寸。如果它在时间上相对于空间上增长过快,可能会使不同目标的边缘合并,破坏早期的特征检测,而如果它增长太慢,可能不能很好地捕捉场景动态。
本文采用了Inception-V1框架,第1个卷积层步长为2,之后4个最大池化层步长也为2。在最后的线性分类层之前接一个 7 × 7 7\times7 7×7的平均池化层。在实验中,输入的视频处理成每秒25帧。我们使用64帧的片段训练模型,使用整个视频进行测试,对预测进行时间平均。整个网络框架如下图所示。
在这里插入图片描述
所有的卷积层和全连接层后面都接了BN层和Relu激活,以及最后softmax输出预测,图中都未展示出来。

3D双流。 虽然3D卷积神经网络应该能够从RGB输入直接学习运动特征,但它仍然执行纯粹的前馈计算,而光流算法在某种意义上是周期性的(例如,他们对流场进行迭代优化)。也许由于这种循环,实验发现双流结构依然是有价值的,其中一个I3D网络训练RGB输入,另一个流输入携带了优化,平滑的流动信息。我们分别训练了这两个网络,并在测试时对两流的预测进行平均。

实验细节

  • 训练时采用标准SGD,momentum设置为0.9。
  • 在Kinetics数据集上对模型进行了110k步的训练,当验证损失达到饱和时,学习率降低10倍。
  • 数据增强:在训练过程中,我们使用随机裁剪的方法,在空间上将较小的视频边调整为256像素,然后随机裁剪一个 224 × 224 224\times 224 224×224的patch,在时间维度上,在这些patch中尽早选择起始帧以保证所需的帧数。对于较短的视频,我们根据需要循环视频多次,以满足每个模型的输入接口。在训练过程中,我们还对每个视频应用了从左到右连续的随机翻转。测试时,整个视频裁剪为 224 × 224 224\times224 224×224,并对预测结果进行平均。

Kinetics Human Action Video Dataset

Kinetics数据集中于人的行为(而不是活动或事件)。动作类别包括:人物动作(单人),如绘画、饮酒、大笑、打拳;人与人行为,如拥抱、亲吻、握手;人和物的行为,如打开礼物、修剪草坪、洗盘子。有些动作是细粒度的,需要时间推理来区分,例如不同的游泳类型。其他动作需要更多的强调对象来区分,例如演奏不同类型的管乐器。
这个数据集有400个动作类别,每个类有400个或更多的片段,每个片段来自一个独特的视频,总共240个训练视频。没有未修剪的视频。测试集中每个类包含100个片段。

实验结果

不同框架在三个训练数据集上的结果。
在这里插入图片描述
经过预训练和未经过预训练在Kinetics数据集上的结果。
在这里插入图片描述
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值