本文旨在解决ViT中与多头自我关注(MHSA)相关的高计算/空间复杂性问题。为此,我们提出了分层多头自注意(H-MHSA),这是一种以分层方式计算自注意的新方法。具体来说,我们首先按照通常的方法将输入图像划分为多个斑块,每个斑块被视为一个标记。然后,提议的 H-MHSA 学习局部补丁内的标记关系,作为局部关系建模。然后,将小补丁合并成大补丁,H-MHSA 对合并后的少量标记进行全局依赖关系建模。最后,对局部和全局注意力特征进行汇总,以获得具有强大表征能力的特征。由于我们每一步只计算有限数量标记的注意力,因此计算负荷大大减少。因此,H-MHSA 可以在不牺牲细粒度信息的情况下,有效地模拟标记之间的全局关系。有了 H-MHSA 模块,我们构建了一个基于分层注意力的变换器网络系列,即 HAT-Net。为了证明 HAT-Net 在场景理解方面的优越性,我们在图像分类、语义分割、物体检测和实例分割等基本视觉任务上进行了大量实验。因此,HAT-Net 为视觉转换器提供了一个新的视角。
现有问题及解决方案:Transformer在NLP领域中以成为了处理长距离依赖关系的事实标准,但其依赖于自注意力机制来建模序列数据的全局关系。随着视觉Transformer的代表性工作ViT的出现,基于像素patch构建Transformer模型的方式已经成为了视觉Transformer的主流范式,但是由于视觉数据中patch序列长度依然较长,其所依赖的Self-Attention操作在实际应用中仍然面临着较高的计算量和空间复杂度的问题。
最近的一些工作主要在尝试通过各种手段来压缩序列长度从而提升视觉Transformer的计算效率,主要如下:
- Local Attention:Swin Transformer中使用固定大小的窗口