论文地址:https://arxiv.org/abs/2102.00719
1 VTN的作用
1.1 提出问题
-
在视频任务下,传统卷积方法中为了更好的提取时序特征,一般采用3D的卷积方式,其中的计算量不管怎么改进也避免不了计算量大的问题。
-
Transformers一开始用于具有连续性的语言模型上,在视频任务中由于视频帧也具有连续性,所以也同样可以使用。但有个问题是,基于transformer的模型自注意操作每层复杂度为 O ( n 2 ) O(n^{2}) O(n2)(n为序列长度),因此在处理长视频序列时受到限制。
1.2 解决方法
-
抛弃3D网络。使用最先进的2D架构来学习空间特征表示,并在随后的数据流中添加时间信息,在结果特征之上使用注意机制。
并且输入只有RGB视频帧 -
VTN的时间处理组件是基于Longformer,可以处理长视频序列。
Longformer通过引入复杂度为 O ( n ) O(n) O(n) 的注意机制实现了冗长的序列处理。这种注意机制结合了局部上下文的自我注意(通过滑动窗口执行)和特定于任务的全局注意。
2 VTN的结构
上图为VTN结构。连接三个模块:
- 二维空间特征提取模型(空间backbone)
- 基于时间注意力的编码器(该工作中使用Longformer),它使用特征向量 ϕ i \phi_{i} ϕ