一般的视频理解方法通常对一段视频的间隔帧提取特征,取它们的极大值或均值来代表整段视频的特征,这是一种很简单的视频表示方法,但是容易陷入局部最优解,论文为此探索了一种可学习的池化技巧(learnable pooling techniques),它将多个算法(比如 Soft Bag-of-words, Fisher Vectors, NetVLAD, GRU and LSTM)相结合,共同组成视频特征。论文还介绍了一种非线性网络单元Context Gating,用于对特征相关性建模。
论文通过实验证明了多方法结合的learnable pooling techniques与Context Gating的有效性。
1. Introduction
本篇论文主要有两点贡献:
1、提出了一种多方法组合共同策略的learnable pooling方法。
2、提出了一种非线性网络单元-Context Gating(CG),CG主要目的是为了捕捉分散特征的关联从而输出更精确的整体结果。
2. Related work
特征提取
过去一般采用手写特征,比较成功的有两种,一种采用局部特征,一种采用梯度特征。
现在一般采用CNN来提取独立帧特征,或提取时空上下文信息。CNN也可用于某一色彩通道或某运动估计通道中。
特征组合
视频特征一般由某些独立帧或者某些视频片段的特征组成,而问题的关键在于,如何组合这些零散特征为一整体表达视频特征。
一种方法是采用RNN,比如LSTM或者GRU,利用RNN特性来更好的把握其时空上下文上的信息。
另一种方法只注意整段视频特征的分布信息,最简单的策略就是取所有特征的均值或最大值,其他较复杂的策略有bag-ofvisual-
words, Vector of Locally aggregated Descriptors (VLAD) or Fisher Vector encoding。
3. Multi-label video classification architecture
<

本文介绍了一种改进的视频特征表示方法,通过结合多种算法(如SoftBag-of-words、FisherVectors、NetVLAD、GRU和LSTM)进行可学习的池化,并引入ContextGating网络单元来捕捉特征间的关联,有效提升了视频分类的准确性。
最低0.47元/天 解锁文章
1001

被折叠的 条评论
为什么被折叠?



