【论文笔记】Video Transformer Network

论文地址:https://arxiv.org/abs/2102.00719

1 VTN的作用

1.1 提出问题

  • 在视频任务下,传统卷积方法中为了更好的提取时序特征,一般采用3D的卷积方式,其中的计算量不管怎么改进也避免不了计算量大的问题。

  • Transformers一开始用于具有连续性的语言模型上,在视频任务中由于视频帧也具有连续性,所以也同样可以使用。但有个问题是,基于transformer的模型自注意操作每层复杂度为 O ( n 2 ) O(n^{2}) O(n2)(n为序列长度),因此在处理长视频序列时受到限制。

1.2 解决方法

  • 抛弃3D网络。使用最先进的2D架构来学习空间特征表示,并在随后的数据流中添加时间信息,在结果特征之上使用注意机制。
    并且输入只有RGB视频帧

  • VTN的时间处理组件是基于Longformer,可以处理长视频序列。

    Longformer通过引入复杂度为 O ( n ) O(n) O(n) 的注意机制实现了冗长的序列处理。这种注意机制结合了局部上下文的自我注意(通过滑动窗口执行)和特定于任务的全局注意。

2 VTN的结构

image-20211202165117220

上图为VTN结构。连接三个模块:

  • 二维空间特征提取模型(空间backbone)
  • 基于时间注意力的编码器(该工作中使用Longformer),它使用特征向量 ϕ i \phi_{i} ϕ
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值