ICLR 2020 | 抛开卷积,multi-head self-attention能够表达任何卷积操作

本文探讨了Self-Attention机制在图像处理中替代卷积层的潜力,通过理论证明和实验验证,展示了Self-Attention能学习到类似卷积操作的特性,为全注意力模型在视觉任务上的应用奠定了基础。

近年来很多研究将nlp中的attention机制融入到视觉的研究中,得到很不错的结果,于是,论文侧重于从理论和实验去验证self-attention可以代替卷积网络独立进行类似卷积的操作,给self-attention在图像领域的应用奠定基础

论文: On the Relationship between Self-Attention and Convolutional Layers

Introduction


  transformer的提出对NLP领域的研究有很大的促进作用,得益于attention机制,特别是self-attention,会考虑词间的相似性,对当前词进行加权输出。受到词间关系学习的启发,self-attention也开始用于视觉任务中,但大都是attention和convonlution的结合。Ramachandran在19年的研究中,用full attention model达到了resnet baseline的精度,模型参数和计算量相比卷积网络减轻了不少
  因此,论文主要研究self-attention layer在图片处理上是否能达到convolutional layer的效果,贡献如下:

  • 在理论层面,论文通过构造性证明self-attention layers能够替代任何卷积层
  • 在实际层面,论文通过构造multi-head self-attention layer进行实验,证明attention-only架构的前几层的确学习到了关注query pixel附近的g网格区域特征

Background on attention mechanisms for vision


The multi-head self-attention layer

  定义 X ∈ R T × D i n X\in \mathbb{R}^{T\times D_{in}} XRT×Din为输入矩阵,包含 T T T D i n D_{in} Din维的token,在NLP中,token对应着序列化的词,同样地也可以对应序列化的像素

  self-attention layer从 D i n D_{in} Din D o u t D_{out} Dout的计算如公式1,2所示, A A A为attention scores,softmax将score转换为attention probabilities,该层的参数包含查询矩阵(query matrix) W q r y ∈ R D i n × D k W_{qry}\in \mathbb{R}^{D_{in}\times D_k} WqryRDin×Dk,关键词矩阵(key matrix) W k e y ∈ R D i n × D k W_{key}\in \mathbb{R}^{D_{in}\times D_k} WkeyRDin×Dk,值矩阵(value matrix) W v a l ∈ R D i n × D o u t W_{val}\in \mathbb{R}^{D_{in}\times D_{out}} WvalRDin×Dout<

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值