ICLR 2020 | 抛开卷积，multi-head self-attention能够表达任何卷积操作

最新推荐文章于 2025-10-11 12:55:33 发布

原创

最新推荐文章于 2025-10-11 12:55:33 发布 · 2.6k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #算法 #计算机视觉 #深度学习 #机器学习

本文探讨了Self-Attention机制在图像处理中替代卷积层的潜力，通过理论证明和实验验证，展示了Self-Attention能学习到类似卷积操作的特性，为全注意力模型在视觉任务上的应用奠定了基础。

近年来很多研究将nlp中的attention机制融入到视觉的研究中，得到很不错的结果，于是，论文侧重于从理论和实验去验证self-attention可以代替卷积网络独立进行类似卷积的操作，给self-attention在图像领域的应用奠定基础

论文: On the Relationship between Self-Attention and Convolutional Layers

论文地址：https://arxiv.org/abs/1911.03584
论文代码：https://github.com/epfml/attention-cnn

Introduction

transformer的提出对NLP领域的研究有很大的促进作用，得益于attention机制，特别是self-attention，会考虑词间的相似性，对当前词进行加权输出。受到词间关系学习的启发，self-attention也开始用于视觉任务中，但大都是attention和convonlution的结合。Ramachandran在19年的研究中，用full attention model达到了resnet baseline的精度，模型参数和计算量相比卷积网络减轻了不少
因此，论文主要研究self-attention layer在图片处理上是否能达到convolutional layer的效果，贡献如下：

在理论层面，论文通过构造性证明self-attention layers能够替代任何卷积层
在实际层面，论文通过构造multi-head self-attention layer进行实验，证明attention-only架构的前几层的确学习到了关注query pixel附近的g网格区域特征

Background on attention mechanisms for vision

The multi-head self-attention layer

定义 $X\in \mathbb{R}^{T\times D_{in}}$ 为输入矩阵，包含 $T$ 个 $D_{in}$ 维的token，在NLP中，token对应着序列化的词，同样地也可以对应序列化的像素

self-attention layer从 $D_{in}$ 到 $D_{out}$ 的计算如公式1,2所示， $A$ 为attention scores，softmax将score转换为attention probabilities，该层的参数包含查询矩阵(query matrix) $W_{qry}\in \mathbb{R}^{D_{in}\times D_k}$ ，关键词矩阵(key matrix) $W_{key}\in \mathbb{R}^{D_{in}\times D_k}$ ，值矩阵(value matrix) $W_{val}\in \mathbb{R}^{D_{in}\times D_{out}}$