(八十六):When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Me
- 出处:CoRR abs/2201.10801 (2022)
- 代码:github.com/microsoft/SPACH
- 题目:当移位操作遇到视觉变压器:一个非常简单的替代注意我
- 主要内容:==shift操作可以考虑。==ViT成功的根本原因是什么呢?作者构建了一个新的Backbone,即ShiftViT,其中ViT中的注意力层被shift操作所取代,将注意层简化为一个非常简单的情况:没有全局作用域,没有动态,甚至没有参数和没有算术计算。这些结果表明,注意机制可能不是ViT成功的关键因素。它甚至可以被零参数操作取代。
Abstract
注意力机制被广泛认为是视觉变形器成功的关键,因为它提供了一种灵活而强大的空间关系建模方法。然而,注意力机制真的是ViT不可缺少的一部分吗?它能被其他替代品取代吗?为了揭示注意力机制的作用,我们将其简化为一个极其简单的例子:零触发器和零参数。具体来说,我们再来看看轮班操作。它不包含任何参数或算术计算。唯一的操作是在相邻特征之间交换一小部分通道。基于这个简单的操作,我们构建了一个新的骨干网,即ShiftViT,其中ViT中的注意层被移位操作取代。令人惊讶的是,shiftit在一些主流任务中工作得很好