论文:Human Action Recognition using Factorized Spatio-Temporal Convolutional Networks(2015)
背景
视频序列中的人类动作是三维(3D)时空信号,表征了所涉及的人类和物体的视觉外观和运动动态。受卷积神经网络(CNN)成功用于图像分类的启发,最近进行了一些尝试来学习3D CNN以识别视频中的人类动作。然而,部分地由于训练3D卷积内核的高度复杂性和对大量训练视频的需求,3DCNN比较难以成功。这促使我们在本文中研究一种可以更有效地处理3D信号的新型深度架构。
主要内容
1.提出分解的时空卷积网络FstCN,将原始3D卷积核学习分解为在较低层(称为空间卷积层)中学习2D空间核,然后在较高层(称为时间卷积层)中学习1D时间核的顺序过程。
2.引进了一个变换和置换操作( transformation and permutation(T-P) operator )用于分解过程。
3.为了处理序列对齐的问题,基于给定动作视频序列中对多个视频片段采样,提出了一种有效的训练和推理策略。(这个序列对齐问题指的是有些动作很快,有些动作持续很久,因此如果输入一个固定大小的时间跨度的视频帧就会出现这个序列对齐问题)
4.提出了一个基于疏密指数(sparsity concentration index (SCI) )的新的得分融合方式
FstCN
FstCN是级联的深度架构,其中堆叠了多个较低的SCL,一个T-P运算符和一个较高的TCL。附加的SCL也与TCL并行使用,旨在学习更抽象的空间外观特征表示。通过顶部的全连接(FC)和分类器层,可以使用反向传播对整个FSTCN进行全局训练。 SCL部分进行对空间特征的学习,TCL部分使用1维卷积核对时间序列学习。原始的3D卷积核作用于视频片段的式子如下: