通道注意力机制(CA)

fsoule

已于 2024-08-02 21:04:09 修改

阅读量6.3k

点赞数 31

分类专栏： CV论文文章标签：人工智能计算机视觉深度学习

于 2024-07-29 17:29:05 首次发布

本文链接：https://blog.youkuaiyun.com/kuailezzf/article/details/135707786

版权

CV论文专栏收录该内容

4 篇文章

订阅专栏

通道注意力机制（Channel Attention, CA）是一种广泛应用于计算机视觉中的注意力机制。它主要用于提取图像特征中不同通道之间的相关性，以帮助网络更好地聚焦于重要的特征信息。

在深度学习中，卷积神经网络（CNN）通常通过堆叠多个卷积层来提取图像的高级特征表示。然而，不同的通道可能对不同的特征有不同的贡献，有些通道可能包含更多的关键信息，而其他通道则可能包含噪声或冗余信息。一般来说，通道注意力机制通过对每层特征图全局信息的学习来为每个通道赋予不同的权重，达到加强有用的特征，抑制无用特征的效果。

具体来说，通道注意力机制通过引入一个注意力模块来学习每个通道的权重，从而动态调整每个通道的重要性。如图1所示，通道注意力机制通过以下步骤实现：

输入：假设输入特征图的尺寸为C×H×W，其中C是通道数，H和W分别是高度和宽度。
特征转换：首先对输入特征进行两次变换，一个是全局平均池化，将特征图的每个通道的空间维度进行平均，得到C维向量；另一个是全连接层（或卷积层），将C维向量映射到一个较小的维度，通常使用ReLU激活函数来保留非线性关系。
注意力权重计算：通过对特征转换后的向量进行一系列的操作，例如全连接层、激活函数和归一化等，得到一个与输入通道数相同的权重向量。这个权重向量可以被看作是每个通道的注意力权重，用于衡量每个通道对最终特征表示的贡献程度。
特征重加权：将输入特征与注意力权重相乘，得到重加权后的特征表示。这样，重要的通道会被放大，而不重要的通道则会减弱，从而更好地聚焦于重要的特征信息。

下面分享几篇经典的通道注意力机制的论文。

1.Squeeze-and-Excitation Networks（SENet）

论文地址：https://arxiv.org/abs/1709.01507

文章中提出了一个新的架构单元，称之为(squeeze -and - Excitation, SE)块，其目标是通过显式地建模其卷积特征通道之间的相互依赖性来提高网络产生的表示的质量。为此，文章中还提出了一种允许网络执行特征重新校准的机制。通过该机制，网络可以学习使用全局信息来选择性地加强有用的特征并抑制无效的特征。

如图2所示，SEBlock由三个操作构成，一是squeeze操作，二是Excitation操作，三是scale操作。具体来说，squeeze操作主要是将全局空间特征( $C\times H \times W$ )压缩到通道描述符（ $1 \times 1 \times C$ ）中，（通俗来说，就是用一个数字来代表一个通道的全局信息）。这一步是通过全局平局池化完成的。Excitation操作是聚合squeeze操作中获取到有效信息。这一步是通过两个全连接层来为每个通道赋予不同的权重，然后通过SIgmoid激活函数来得到一个0-1之间的权重。scale操作就是将Excitation操作中算出来的权重与输入特征进行相乘，来完成对有用通道特征的加强以及抑制无效的通道特征。

此外，文章还将SE块集成到了Inception网络和ResNet网络中，其中SEInception 块结构如图3所示，SEResNet 块结构如图4如下。

2.Selective Kernel Networks（SKNet）

论文地址：https://arxiv.org/abs/1903.06586

文章中提到在视觉皮层中，同一区域神经元的RF大小是不同的，这使得神经元能够在同一处理阶段收集多尺度的空间信息。并且，这种机制已被广泛应用于卷积神经网络(cnn)中。一个典型的例子是InceptionNets，其中设计了一个简单的连接来聚合来自“inception”构建块内的卷积核的多尺度信息，例如3×3, 5×5, 7×7。因此，为了将这种多尺度思想运用到通道注意力机制中，文章提出了一种动态选择机制，允许每个神经元根据输入信息的多个尺度自适应调整其接受野的大小。并且设计了一种称为选择性内核(SK)单元的构建模块，在该模块中，由不同内核大小的多个分支的信息引导，使用softmax的注意力进行融合。对这些分支的不同关注导致融合层神经元有效感受野的大小不同。下面我们就来看看SK卷积的结构。