【视频理解论文】——Grouped Spatial-Temporal Aggregation for Efficient Action Recognition(ICCV2019)

一、个人直观解读:
  • 文章动机:就是为了对基于3DCNN的视频行为识别中的参数进行控制,同时想要达到3DCNN的效果
    原文的描述就是一句话“reduce the complexity by decoupling the spatial and temporal filters
  • 采取的方式:还是借鉴了TSN,TRN,这一类的利用2DCNN的网络结构,然后再次基础上拓展了P3D的工作,如下图所示也就是在我用红框圈出来的地方做文章的。
    在这里插入图片描述
  • 其他:主要借鉴了分组卷积的思路,重新设计了上图中红框的部分,变成了两个分支,一个称之为Temoral conv用3DCNN来实现时序建模,另外一个是Spatial conv继续用2DCNN来进行空间建模。
  • 嗯,以上基本就是这篇文章的整体思路了。并不难。
二、Introduction中有价值的点
  • 1.是沿着channel dimension进行时-空分解的
  • 2.是受到group convolution的启发的
  • 3.本方法之所以有效的动机或者假设:对于 输入或者中间的一些feature map, 推测其中一些channel 是对空间信息更敏感的或者说更相关的,另一方面,其中还有一些就是对时序信息更相关的了,也可以说成是motion features
  • 4.之前的一些方法呢,spetial 和temporal features 是被混在一起进行处理的&#
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值