《Long-Term Temporal Convolutions for Action Recognition》论文翻译

最新推荐文章于 2024-07-24 20:06:37 发布

北北南北

最新推荐文章于 2024-07-24 20:06:37 发布

阅读量3.1k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：模式识别图像处理卷积神经网络动作识别

本文链接：https://blog.youkuaiyun.com/qq_30501975/article/details/80725427

翻译，论文原文来自PAMI官方网站，原文链接
翻译人：
翻译时间：2018年6月10日14:39:18

并标记了一些重点。

作者
摘要
关键词
介绍
相关工作
长时期卷积
- 网络架构
- 网络输入
- 学习
实验
- 数据集和评估指标
- LTC网络参数的评估
  - 光流量
  - 数据增强
  - 比较16帧和60帧网络
  - 改变时间和空间分辨率
  - 组合不同时态决议的网络
- 与最新技术的比较
- 三维时空滤波器的分析
  - 第一层权重
  - 高层过滤器激活
- 运行时间
结论
引用

用于动作分析的长期时间卷积

作者

GülVarol

Départementd’Informatique de l’ÉcoleNormaleSupérieure，Inria，WILLOW项目组，ENS / Inria / CNRS UMR 8548，法国巴黎

伊万拉普夫

Départementd’Informatique de l’ÉcoleNormaleSupérieure，Inria，WILLOW项目组，ENS / Inria / CNRS UMR 8548，法国巴黎

Cordelia Schmid

Inria，Thoth项目组，Inria GrenobleRhône-Alpes，Laboratoire Jean Kuntzmann，法国

摘要

典型的人类行动持续几秒钟，并展现出特有的时空结构。最近的方法试图捕捉这种结构并学习卷积神经网络的行为表征。然而，这样的表示通常是在几个视频帧的层面上学习的，该视频帧未能在其全部时间范围内对动作建模。在这项工作中，我们学习使用具有长时间卷积（LTC）的神经网络的视频表示。我们证明具有增加的时间范围的LTC-CNN模型提高了动作识别的准确性。我们还研究了不同的低层表示（如视频像素和光流矢量场的原始值）的影响，并展示了高质量光流估计对学习准确动作模型的重要性。

关键词

动作识别、视频分析、表示学习、时空卷积、神经网络。

正文翻译

第一节

介绍

人类行为和事件可以被看作是时空对象。这种观点在心理学 [1]和视频中的行动识别的计算机视觉方法 [2]，[3]， [4]，[5]中均得到支持。动作识别的成功方法实际上与目标识别具有相似的技术，并通过本地视频描述符的统计模型来表示动作。然而，与对象不同的是，行为的特征是由运动支配的外表的时间演变。与此相一致，基于运动的视频描述符，如HOF和MBH [2]，[5]以及最近基于CNN的运动表示 [6]在实践中已经显示出行动承认的最大收益。

卷积神经网络（CNN）最近的兴起令人信服地证明了学习视觉表示的力量 [7]。配备大规模训练数据集 [8]，[9]，CNN已经快速接管了大部分静止图像识别任务，如对象，场景和人脸识别 [9]，[10]，[11]。在视频行为识别细胞神经网络的扩展在最近的几部作品被提出 [6] ，[12] ， [13] 。然而，这种方法目前仅比使用手工制作的视频特征的早期方法显示出中等的改进 [5]。

当前CNN的动作识别方法通常将CNN架构扩展为静态图像 [7]，并学习1到16帧的短视频区间的动作表示 [6]，[12]， [13]。然而，典型的人类行为例如握手和饮酒，以及诸如步行和游泳等重复行动的周期通常持续数秒并且跨越数十或数百个视频帧。如图1和2所示1a和 1c行为通常包含具有特定空间和长期时间结构的特征模式。将这种结构分解成短片段（见图 1b和1d）并通过平均剪辑分数[6]， [13]或更复杂的方案（如LSTM [14]）来聚合视频级信息可能不是最理想的。

图1 两类游泳动作的视频补丁:a, c：行动通常包含持续几秒钟的特有的，特定类别的时空模式。b, d：将视频分割成短暂的时间间隔很可能会破坏这种模式，使认识更加困难。我们的带有长时间卷积（LTC）的神经网络可以在较长时间内学习视频表示。

在这项工作中，我们调查了长期视频表示的学习。我们考虑时空卷积神经网络 [13]，[15]， [16]和长时间卷积（LTC）的研究架构，见图 2。为了保持网络的复杂性易于处理，我们以降低空间分辨率为代价增加了表示的时间范围。我们还研究不同底层表示的影响，如视频像素和光流矢量场的原始值。我们的实验证实了基于运动的表示的优点，并强调了高质量运动估计对学习人类动作识别的高效表示的重要性。我们报告了两个最新和具有挑战性的人类行动基准：UCF101和HMDB51的最新性能。

图2 网络架构。采用3x3x3滤波器的时空卷积应用于网络的前5层。所有卷积层之间应用最大池和ReLU。网络输入通道C1 … Cķ 是为不同的时间分辨率而定义的吨∈ { 20 ，40 ，60 ，80 ，100 }和双通道运动（ *flow-x，flow-y）或三通道运动（R，G， B）。卷积层的时空分辨率随着池化操作而减小。*

这项工作的贡献是双重的。本节中，我们展示了（i）长期时间卷积的优点和（ii）高质量的光流估计对于学习人类行为识别的准确视频表示的重要性。在本文的其余部分中，我们讨论了相关工作第2节，描述了时空CNN架构中第3节和展示我们方法的广泛的实验研究第4节。我们的实施和预先训练的CNN模型（兼容Torch）可在项目网页上找到 [17]。

第2节

长期时间卷积

在本节中，我们首先介绍网络体系结构。然后，我们指定在这项工作中使用的网络的不同输入。我们最后提供了学习和测试程序的细节。

3.1网络架构

我们的网络结构具有长时间卷积，如图2所示。该网络具有5个时空卷积层，分别具有64,128,256,256和256个滤波器响应图，随后是3个大小为2048,2048和类数的完全连接层。以下 [13]我们使用3 × 3 × 3 用于所有卷积层的时空滤波器。每个卷积层后面都有一个修正的线性单元（ReLU）和一个空闲最大池层。最大池过滤器的大小 2 × 2 × 2 ，除了在第一层中是 2 × 2 × 1 。通过在所有三维中填充1个像素，卷积输出的大小保持不变。对于所有维度，过滤器跨度为1，卷积操作为2。我们对前两个完全连接的层使用了dropout（信号丢失？），完全连接层后面是ReLU层，网络末端的Softmax层输出类分数。

3.2网络输入

为了研究长期时间卷积的影响，我们在这里研究具有不同时间范围的网络输入。我们从最近的C3D工作 [13]出发，首先比较了16帧（16f）和60帧（60f）的输入。然后，我们系统地分析在运动和外观方面增加的时间和空间分辨率对输入信号的影响。对于16帧网络，我们从空间分辨率为171 × 128像素的视频中裁剪了大小为 $112 × 112 × 16$ 的输入补丁。我们选择这种基线架构，来与[13]进行直接比较。对于60帧网络，我们降低空间分辨率以保持网络复杂性，并使用大小的输入补丁 $58 × 58 × 60$ 从重新缩放到的视频中随机裁剪 89 × 67 空间分辨率。

如图2所示，60f网络中的时间分辨率对应于五个卷积层中的每一个的60,30,15,7和3帧。相比之下，16f网络的时间分辨率在每个卷积层被更剧烈地降低到16,8,4,2和1帧。我们认为，保留更高卷积层的时间分辨率应该能够学习更复杂的时间模式。16f和60f网络中的第五卷积层的输出的时空分辨率分别为3 × 3 × 1 和 1 × 1 × 3。这两个网络在fc6层中具有相似数量的参数，而在所有其他层中具有相同数量的参数。为了系统研究不同输入分辨率的网络，我们还评估了增加时间分辨率 $t∈ { 20 ，40 ，60 ，80 ，100 }$ 和变化的空间分辨率 ${ 58 × 58 ，71 × 71 }$ 像素的影响。

除了输入大小之外，我们还尝试使用不同类型的输入模式。首先，如 [13]中所示，我们使用来自视频帧的原始RGB值作为输入。为了明确地学习运动表示，我们也使用了流场x 和 y 方向作为我们网络的输入。对于原始视频计算流量。为了在空间分辨率降低的情况下为网络输入保持正确的流量值，流量的大小由空间子采样因子缩放。换句话说，如果一个点在320 × 240 视频帧中移动了2个像素，那么，当帧被调整到160 × 120分辨率时，其运动将为1个像素。此外，为了使输入数据居中，我们遵循[6]并减去每帧的平均流向量。

为了研究动作识别对运动估计质量的依赖性，我们试验了三种类型的流量输入，直接从视频编码中获得的流量输入（称为MPEG流量 [27] ），或者从两种光流量估计器，即Farneback [28 ]和Brox [29]，获得的流量输入。图3显示三种流算法的结果。MPEG流是我们从原始视频编码中获得的光流的快速替代品。但是，这种流动具有低空间分辨率。它也遗漏了我们从相邻帧插入的一些帧（I 帧）的流向量。Farneback流也相对较快，并且流量估算值相当嘈杂。Brox流的方法是三个中最复杂的方法，并且已知在各种流量估算基准中表现良好。

图3说明三种光流方法和相应识别性能的比较。从左到右：原始图像，MPEG，Farneback和Brox光流。颜色编码指示流的方向。右侧的表格显示了UCF101（split 1）中针对不同输入的动作识别的准确性。使用60f网络获得结果并从头开始进行训练

3.3学习

我们分别为UCF101和HMDB51数据集分别训练我们的网络，每个训练集分别包含9.5K和3.7K视频。我们使用随机梯度下降法应用于负对数似然准则的小批量。对于16f网络，我们使用30个视频剪辑的小批量大小。由于我们的GPU的限制，我们将批量缩减为60f网络的15个视频剪辑，以及100f网络的10个剪辑。从头开始学习网络的初始学习率是 3×10−3</