实战级Stand-Alone Self-Attention in CV,快加入到你的trick包吧 | NeurIPS 2019

本文提出了一种新的视觉模型特征提取方法——独占型自注意力层,该方法在图像分类和目标检测任务中,相较于传统卷积模型,能够在保持相近准确率的同时,大幅减少模型的参数量和计算量。

论文提出stand-alone self-attention layer,并且构建了full attention model,验证了content-based的相互关系能够作为视觉模型特征提取的主要基底。在图像分类和目标检测实验中,相对于传统的卷积模型,在准确率差不多的情况下,能够大幅减少参数量和计算量,论文的工作有很大的参考意义

来源:【晓飞的算法工程笔记】 公众号

论文: Stand-Alone Self-Attention in Vision Models

Introduction


  目前卷积网络的设计是提高图像任务性能的关键,而卷积操作由于平移不变性使其成为了图像分析的主力。受限于感受域的大小设定,卷积很难获取长距离的像素关系,而在序列模型中,已经能很好地用attention来解决这个问题。目前,attention模块已经开始应用于传统卷积网络中,比如channel-based的attention机制 Squeeze-Excite和spatially-aware的attention机制Non-local Network等。这些工作都是将global attention layers作为插件加入到目前的卷积模块中,这种全局形式考虑输入的所有空间位置,当输入很小时,由于网络需要进行大幅下采样,通常特征加强效果不好
  因此,论文提出简单的local self-attention layer,将内容之间的关系(content-based interactions)作为主要特征提取工具而不是卷积的增强工具,能够同时处理大小输入,另外也使用这个stand-alone attention layer来构建全attention的视觉模型,在图像分类和目标定位上的性能比全卷积的baseline要好

Background


Convolution

  卷积神经网络(CNN)通常学习小范围(kernel sizes)的局部特征,对于输入 x ∈ R h × w × d i n x\in \mathbb{R}^{h\times w\times d_{in}} xRh×w×din,定义局部像素集 N k \mathcal{N}_k Nk为像素 x i , j x_{i,j} xi,j周围 k k k区域的像素,大小为 k × k × d i n k\times k\times d_{in} k×k×din,如图1

  对于学习到的权重 W ∈ R k × k × d o u t × k i n W\in \mathbb{R}^{k\times k\times d_{out}\times k_{in}} WRk×k×dout×kin,位置 i j ij ij的输出 y i j ∈ R d o u t y_{ij}\in \mathbb{R}^{d_{out}} yijRdout通过公式1计算所得,其中 N k ( i , j ) = { a , b ∣   ∣ a − i ∣ ≤ k / 2 , ∣ b − j ∣ ≤ k / 2 } \mathcal{N}_k(i,j)=\{a,b|\ |a-i|\le k/2,|b-j|\le k/2\} Nk(i,j)={ a,b aik/2,b

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值