StNet:Local and Global Spatial-Temporal Modeling for Action Recognition阅读笔记

本文介绍了一种名为STNet的新网络结构,它结合了2D卷积用于处理局部信息和3D卷积用于处理全局信息的方法,以克服传统CNN+RNN或纯3DCNN在视频特征提取中的局限性。

摘要:

         相比与处理视频用cnn+rnn或者3dcnn的方法,文章提出了一种能结合局部和全局信息的网络结构stnet,2d卷积处理局部信息,3d卷积处理全局信息

引言:

       虽然基于cnn+rnn或者3dcnn的方法已经取得了很大的进步,但是远远未达到和人相提并论的时候,主要面临的挑战,来自于从视频中抽取具有判别性的时空特征,对于cNN+rnn的方法来说,cnn部分用来提取空间信息,rnn部分用来提取时间序列上的信息,但是对于端到端的优化来说,由于rnn结构的存在,使得整体很难优化,但是分开训练cnn和rnn的部分,又不能够更好的结合时空特征的表征。

      虽然基于cnn+rnn或者3dcnn的方法已经取得了很大的进步,但是远远未达到和人相提并论的时候,主要面临的挑战,来自于从视频中抽取具有判别性的时空特征,对于cNN+rnn的方法来说,cnn部分用来提取空间信息,rnn部分用来提取时间序列上的信息,但是对于端到端的优化来说,由于rnn结构的存在,使得整体很难优化,但是分开训练cnn和rnn的部分,又不能够更好的结合时空特征的表征。

相关工作:

    1.传统的方法,用手工提取的特征

    2.深度卷积神经网络的方法,又分为,cnn+rnn的,和只基于cnn的,在基于cnn的方法上,有双流法(用卷积结合空间和光流结合时间序列信息),然后是纯3dcnn的方法,3dcnn这个派系发展的比较多,可以看原文作者给出的介绍

    3.作者提出,用空间卷积(3dcnn)提取局部的时空序列信息(由普通的2d卷积提取得到)

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值