一、个人直观解读:
- 文章动机:就是为了对基于3DCNN的视频行为识别中的参数进行控制,同时想要达到3DCNN的效果
原文的描述就是一句话“reduce the complexity by decoupling the spatial and temporal filters” - 采取的方式:还是借鉴了TSN,TRN,这一类的利用2DCNN的网络结构,然后再次基础上拓展了P3D的工作,如下图所示也就是在我用红框圈出来的地方做文章的。
- 其他:主要借鉴了分组卷积的思路,重新设计了上图中红框的部分,变成了两个分支,一个称之为Temoral conv用3DCNN来实现时序建模,另外一个是Spatial conv继续用2DCNN来进行空间建模。
- 嗯,以上基本就是这篇文章的整体思路了。并不难。
二、Introduction中有价值的点
- 1.是沿着channel dimension进行时-空分解的
- 2.是受到group convolution的启发的
- 3.本方法之所以有效的动机或者假设:对于 输入或者中间的一些feature map, 推测其中一些channel 是对空间信息更敏感的或者说更相关的,另一方面,其中还有一些就是对时序信息更相关的了,也可以说成是motion features
- 4.之前的一些方法呢,spetial 和temporal features 是被混在一起进行处理的&#