AdaFrame: Adaptive Frame Selection for Fast Video Recognition
来源:CVPR 2019
文章链接:https://arxiv.org/abs/1811.12432
motivation
在视频中进行目标检测或识别时,一个直接的想法就是对视频中的帧均匀采样,再结合视频的一些特点(光流传播,边界框传播等),用传统的识别和检测的方法去逐帧处理。尽管这种方法行之有效,但是视频中存在大量的信息冗余,同时因为均匀采样假定信息随时间均匀分布,所以大量的背景帧会引入很多噪声且增加了计算量。基于此,对视频的采样策略应该是随机的,而且是自适应的,进一步来说,只需要少量的高质量信息帧就可以产生正确的预测。
方法
论文提出的方法有两个关键部分,第一是采用记忆增强(全局记忆存储器)的LSTM作为关键帧选择器,第二是采用了一个自适应推理策略在适当的时候停止计算。
记忆增强的LSTM
h t , c t = LSTM ( [ v t , u t ] , h t − 1 , c t − 1 ) \boldsymbol{h}_{t}, \boldsymbol{c}_{t}=\operatorname{LSTM}\left(\left[\boldsymbol{v}_{t}, \boldsymbol{u}_{t}\right], \boldsymbol{h}_{t-1}, \boldsymbol{c}_{t-1}\right) ht,ct=LSTM([vt,ut],ht−1,c