【视频理解论文】——Grouped Spatial-Temporal Aggregation for Efficient Action Recognition（ICCV2019）

最新推荐文章于 2024-09-12 07:44:16 发布

Amazingren

最新推荐文章于 2024-09-12 07:44:16 发布

阅读量1.6k

点赞数

分类专栏：深度学习系列 HumanActionRecognition

本文链接：https://blog.youkuaiyun.com/Amazingren/article/details/103932190

版权

文章动机：就是为了对基于3DCNN的视频行为识别中的参数进行控制，同时想要达到3DCNN的效果
原文的描述就是一句话“reduce the complexity by decoupling the spatial and temporal filters”
采取的方式：还是借鉴了TSN，TRN，这一类的利用2DCNN的网络结构，然后再次基础上拓展了P3D的工作，如下图所示也就是在我用红框圈出来的地方做文章的。
其他：主要借鉴了分组卷积的思路，重新设计了上图中红框的部分，变成了两个分支，一个称之为Temoral conv用3DCNN来实现时序建模，另外一个是Spatial conv继续用2DCNN来进行空间建模。
嗯，以上基本就是这篇文章的整体思路了。并不难。

1.是沿着channel dimension进行时-空分解的
2.是受到group convolution的启发的
3.本方法之所以有效的动机或者假设：对于输入或者中间的一些feature map, 推测其中一些channel 是对空间信息更敏感的或者说更相关的，另一方面，其中还有一些就是对时序信息更相关的了，也可以说成是motion features
4.之前的一些方法呢，spetial 和temporal features 是被混在一起进行处理的&#