文章目录
BAM: Bottleneck Attention Module
引言
在此论文中,我们把重心放在了Attention对于一般深度神经网络的影响上, 我们提出了一个简单但是有效的Attention 模型—BAM,它可以结合到任何前向传播卷积神经网络中,我们的模型通过两个分离的路径 channel和spatial, 得到一个Attention Map.
整体结构图如下:
这里作者将BAM放在了Resnet网络中每个stage之间。有趣的是,通过可视化我们可以看到多层BAMs形成了一个分层的注意力机制,这有点像人类的感知机制。BAM在每个stage之间消除了像背景语义特征这样的低层次特征,然后逐渐聚焦于高级的语义–明确的目标(比如图中的狗).
主要思想:
channel attention branch
对于给定的feature map F ∈ R C ∗ H ∗ W \mathrm{F} \in R^{C * H * W} F∈RC∗H∗W,BAM可以得到一个3D的Attention map M ( F ) ∈ R C ∗ H ∗ W M(F)∈R^{C*H*W} M(F)∈RC∗H∗W.加强的feature map F′;
F ′ = F + F ⊗ M ( F ) \mathrm{F}^{\prime}=\mathrm{F}+\mathrm{F} \otimes \mathrm{M}(\mathrm{F}) F′=F+F⊗M(F)
为了设计一个有效且强大的模型,我们首先计算channel attention,然后计算spatial attention.这时M(F)就变成:
M ( F ) = σ ( M c ( F ) + M s ( F ) ) \mathrm{M}(\mathrm{F})=\sigma\left(\mathrm{M}_{c}(\mathrm{F})+\mathrm{M}_{s}(\mathrm{F})\right) M(F)=σ(Mc(F)+Ms(F))
这里σ 代表sigmoid函数,为了聚合feature map在每个通道维度,我们采用全局平均池化得到 F C F_{C} FC这个向量然后对全局信息在每个通道进行软编码。为了评估Attention在每个通道的效果?我们使用了一个多层感知(MLP)用一层隐藏层。在MLP之后,我们增加了BN去调整规模和空间分支一样的输出,channel attention可以被计算为:
M c ( F ) = B N ( M L P ( AvgPool ( F ) ) ) \mathbf{M}_{\mathbf{c}}(\mathbf{F})=B N(M L P(\text {AvgPool}(\mathbf{F}))) Mc