论文提出stand-alone self-attention layer,并且构建了full attention model,验证了content-based的相互关系能够作为视觉模型特征提取的主要基底。在图像分类和目标检测实验中,相对于传统的卷积模型,在准确率差不多的情况下,能够大幅减少参数量和计算量,论文的工作有很大的参考意义
来源:【晓飞的算法工程笔记】 公众号
论文: Stand-Alone Self-Attention in Vision Models

Introduction
目前卷积网络的设计是提高图像任务性能的关键,而卷积操作由于平移不变性使其成为了图像分析的主力。受限于感受域的大小设定,卷积很难获取长距离的像素关系,而在序列模型中,已经能很好地用attention来解决这个问题。目前,attention模块已经开始应用于传统卷积网络中,比如channel-based的attention机制 Squeeze-Excite和spatially-aware的attention机制Non-local Network等。这些工作都是将global attention layers作为插件加入到目前的卷积模块中,这种全局形式考虑输入的所有空间位置,当输入很小时,由于网络需要进行大幅下采样,通常特征加强效果不好
因此,论文提出简单的local self-attention layer,将内容之间的关系(content-based interactions)作为主要特征提取工具而不是卷积的增强工具,能够同时处理大小输入,另外也使用这个stand-alone attention layer来构建全attention的视觉模型,在图像分类和目标定位上的性能比全卷积的baseline要好
Background
Convolution

卷积神经网络(CNN)通常学习小范围(kernel sizes)的局部特征,对于输入 x ∈ R h × w × d i n x\in \mathbb{R}^{h\times w\times d_{in}} x∈Rh×w×din,定义局部像素集 N k \mathcal{N}_k Nk为像素 x i , j x_{i,j} xi,j周围 k k k区域的像素,大小为 k × k × d i n k\times k\times d_{in} k×k×din,如图1

对于学习到的权重 W ∈ R k × k × d o u t × k i n W\in \mathbb{R}^{k\times k\times d_{out}\times k_{in}} W∈Rk×k×dout×kin,位置 i j ij ij的输出 y i j ∈ R d o u t y_{ij}\in \mathbb{R}^{d_{out}} yij∈Rdout通过公式1计算所得,其中 N k ( i , j ) = { a , b ∣ ∣ a − i ∣ ≤ k / 2 , ∣ b − j ∣ ≤ k / 2 } \mathcal{N}_k(i,j)=\{a,b|\ |a-i|\le k/2,|b-j|\le k/2\} Nk(i,j)={ a,b∣ ∣a−i∣≤k/2,∣b

本文提出了一种新的视觉模型特征提取方法——独占型自注意力层,该方法在图像分类和目标检测任务中,相较于传统卷积模型,能够在保持相近准确率的同时,大幅减少模型的参数量和计算量。
最低0.47元/天 解锁文章
1979

被折叠的 条评论
为什么被折叠?



