近年来很多研究将nlp中的attention机制融入到视觉的研究中,得到很不错的结果,于是,论文侧重于从理论和实验去验证self-attention可以代替卷积网络独立进行类似卷积的操作,给self-attention在图像领域的应用奠定基础
论文: On the Relationship between Self-Attention and Convolutional Layers

Introduction
transformer的提出对NLP领域的研究有很大的促进作用,得益于attention机制,特别是self-attention,会考虑词间的相似性,对当前词进行加权输出。受到词间关系学习的启发,self-attention也开始用于视觉任务中,但大都是attention和convonlution的结合。Ramachandran在19年的研究中,用full attention model达到了resnet baseline的精度,模型参数和计算量相比卷积网络减轻了不少
因此,论文主要研究self-attention layer在图片处理上是否能达到convolutional layer的效果,贡献如下:
- 在理论层面,论文通过构造性证明self-attention layers能够替代任何卷积层
- 在实际层面,论文通过构造multi-head self-attention layer进行实验,证明attention-only架构的前几层的确学习到了关注query pixel附近的g网格区域特征
Background on attention mechanisms for vision
The multi-head self-attention layer
定义 X ∈ R T × D i n X\in \mathbb{R}^{T\times D_{in}} X∈RT×Din为输入矩阵,包含 T T T个 D i n D_{in} Din维的token,在NLP中,token对应着序列化的词,同样地也可以对应序列化的像素


self-attention layer从 D i n D_{in} Din到 D o u t D_{out} Dout的计算如公式1,2所示, A A A为attention scores,softmax将score转换为attention probabilities,该层的参数包含查询矩阵(query matrix) W q r y ∈ R D i n × D k W_{qry}\in \mathbb{R}^{D_{in}\times D_k} Wqry∈RDin×Dk,关键词矩阵(key matrix) W k e y ∈ R D i n × D k W_{key}\in \mathbb{R}^{D_{in}\times D_k} Wkey∈RDin×Dk,值矩阵(value matrix) W v a l ∈ R D i n × D o u t W_{val}\in \mathbb{R}^{D_{in}\times D_{out}} Wval∈RDin×Dout<

本文探讨了Self-Attention机制在图像处理中替代卷积层的潜力,通过理论证明和实验验证,展示了Self-Attention能学习到类似卷积操作的特性,为全注意力模型在视觉任务上的应用奠定了基础。
最低0.47元/天 解锁文章
2486

被折叠的 条评论
为什么被折叠?



