Spatio-Temporal Channel Correlation Networks for Action Classification
Abstract
引入STC块对3D卷积神经网络进行关于时间、空间特征的建模。STC块嵌入目前先进的结构中能在Kinetic数据集上提高2-3%的性能。
在2D卷积神经网络上进行预训练,再将只是迁移到随机初始化的3D卷积网络中,实现稳定的权重初始化。(在Sports-1M上训练,在目标数据集HMDB51/UCF101上进行微调,便能超过其他的方法。)
Introduction
三维卷积神经网络的问题:
- 三维卷积神经网络忽略了通道之间的时空相关性的隐藏信息,这限制了这些体系结构的性能。
- 三维卷积神经网络需要超大的标记数据集。
以上的两个问题都会对计算效率和准确率造成负面影响。为避免这些限制,论文提出了:
- STC模块——高效捕获时间通道和空间通道关联信息。
- 一个有效的监督转移——连接不同架构之间的知识转移,这样就不再需要从头开始训练网络。
STC
STC的功能是同时考虑时空特征上的通道间相关性信息,可以分为两个分支(设定输入为X∈RH×W×T×CX\in{\mathbb R}^{H\times W\times T\times C}X∈RH×W×T×C):
- SCB,考虑空间通道信息。空间全局池化产生的全局接受野的表达扮演两个重要角色:a) 考虑全局相关性通过聚合全局特征输入。b) 提供一个通道描述符分析通道之间的相关性。通道及的特征向量喂到两个bottleneck形状的全连接层来学习通道间的依赖关系。
- TCB,考虑时间通道信息。有与SCB类似的过程,但用时间全局池化代替SCB的空间全局池化。
然后将以上两个分支的输出特征联合并作为STC块的输出。
有监督迁移
在ImageNet上训练2D卷积神经网络,将训练好的2D CNN进行有监督迁移,迁移到随机初始化的3D CNN来进行稳定的权重初始化。
这样可以避免巨额的计算工作量和训练时间。
网络结构如下:
Related Work
Video Classification with and without CNNs
- 未使用CNNs:HOG3D, SIFT3D, HOF, ESURF, MBH, iDTs, etc. 都是手动调整的。其中iDTs是最优秀的,待久就是计算成本昂贵并且缺乏补货语义概念的可拓展性。
- 使用了CNNs:分为2D——帧级和3D——视频级信息提取两种方式。2D使用LSTMs和RNNs来对独立帧进行建模以捕获长期时间依赖。通过特征聚合和编码来使用双线性模型、VLAD、Fisher编码等。还有一些3D卷积模型、光流卷积模型等等。
Transfer Learning
即在其他数据集上预训练好的网络放到目标数据集上进行微调。起到降低训练耗时的作用,即站在巨人的肩膀上。论文的Proposed Method中的transfer learning小节对文中使用的迁移学习方法进行了详尽的阐述。
Proposed Method
STC用于通过深度CNNs从视频中捕获不同的和新的信息。STC相关性模块在3D CNNs中提取不同层、不同通道中提取出不同通道的相关信息。此外,论文的另一个主要贡献,展示了跨架构(即2D→3D神经网络)之间的知识转移,从而避免了从头开始训练3Dcnn的需要。
STC Block
分为如下图中的TCB和SCB两条支路。每一条路径都有不同的模块;通道或卷积核信息嵌入和捕获依赖关系。论文提出的方法受到SENet论文中的方法的启发,即Squeeze-and-Excitation方法中所使用的全局平均池(空间和时间),和随后的两个bottleneck FC层和sigmoid激活函数。与SENet相比,STC块有两个分支,换句话说是双路径;一个考虑纯通道信息,另一个考虑时间通道信息。
第lthl^{th}lth层提取的输出特征图是一个张量X∈RH×W×T×CX\in{\mathbb R} ^{H\times W\times T\times C}X∈RH×W×T×C,这四个交表分别代表特征图的高、宽、时间深度和通道序号。3D卷积和池化核的尺寸是s×s×ds\times s\times ds×s×d,ddd代表时间深度sss代表卷积核的空间尺寸。
TCB
可以用以下公式来表达:
ztcb=1W×H×T∑iW∑jH∑tTxijtstcb=Ftcb(ztcb,W)=W2(W1ztcb)xtcb=stcb⋅X \begin{aligned} z_{tcb}&=\frac{1}{W\times H\times T}\sum\limits_i^W\sum\limits_j^H\sum\limits_t^T x_{ijt}\\ s_{tcb}&=F_{tcb}(z_{tcb, W}) = W_2(W_1z_{tcb})\\ x_{tcb}&=s_{tcb}\cdot X \end{aligned} zt