26、Spatially Attentive Output Layer for Image Classification

最新推荐文章于 2021-09-04 12:33:41 发布

翻译最新推荐文章于 2021-09-04 12:33:41 发布 · 1.6k 阅读

CC 4.0 BY-SA版权

原文链接：https://openaccess.thecvf.com/content_CVPR_2020/html/Kim_Spatially_Attentive_Output_Layer_for_Image_Classification_CVPR_2020_paper.html

文章标签：

#深度学习

论文阅读同时被 2 个专栏收录

5 篇文章

订阅专栏

图像分类

1 篇文章

订阅专栏

提出一种新的空间注意输出层(SAOL)，利用特定位置的输出信息提高图像分类性能，结合自监督和自蒸馏损失提升泛化能力。

CVPR 2020

摘要

大多数用于图像分类的卷积神经网络（cnn）使用全局平均池（GAP）和输出逻辑的全连接（FC）层。然而，这种空间聚集过程固有地限制了输出层位置特定信息的利用，尽管这种空间信息可以有利于分类。在本文中，我们提出了一个新的空间输出层，在现有的卷积特征映射的基础上显式地利用特定位置的输出信息。具体地说，在给定的空间特征映射下，通过在空间逻辑上引入注意掩模，用空间注意输出层（SAOL）代替先前的GAP-FC层。所提出的位置特定注意有选择地聚集目标区域内的空间逻辑，这不仅可以提高性能，而且可以获得空间可解释的输出。此外，所提出的SAOL还允许充分利用特定位置的自我监督和自我蒸馏来提高训练中的泛化能力。所提出的具有自监督和自蒸馏功能的SAOL可以很容易地插入到现有的cnn中。在具有代表性体系结构的各种分类任务上的实验结果表明，SAOL在几乎相同的计算开销下，性能得到了一致的改善。

1 介绍

深卷积神经网络（CNNs）在图像分类[23,16]、目标检测[13,31,27]和语义分割[28,2]等各种计算机视觉任务中取得了长足的进步。特别是对卷积块及其连接进行了大量的研究，如深度可分离卷积[5]、可变形ConvNet[7]、ResNet[16]和NASNet[48]等，以改进特征表示。然而，与成熟的（多尺度）空间特征提取的卷积体系结构相比，从特征图生成分类逻辑的输出模块与标准模块基本相同，该模块由全局平均池（GAP）层和完全连接（FC）层组成。尽管研究表明，具有这种特征聚合的cnn在一定程度上可以保持其定位能力[26,46,47]，但原则上，这些cnn在充分利用图像分类输出逻辑的显式本地化的好处方面有一定的限制。

最近，局部类特定响应的使用引起了图像分类的越来越多的关注，这使得图像分类具有以下三个主要优点：

（1）这有助于解释CNN的通过视觉解释[47，33，1]决策；

（2）空间注意机制可以通过只关注与所考虑的标签[21，38，36，10]语义相关的区域来提高性能；

（3）它能够利用辅助的基于空间变换的自我监督损失或任务，从而提高了泛化能力[25,11,45,15,19,37]。

然而，以往的方法大多是通过传统的类激活映射技术，如类激活映射（CAM）[47]和梯度加权类激活映射（Grad-CAM）[33]来获得空间逻辑图或注意映射。他们仍然利用间隙进行图像级预测，因此只定位了目标对象的一小部分[25]或在类[37]中参与不可分割的区域。虽然这种不精确的注意力映射阻碍了它提高分类精度的应用，但它也限制了关于空间标记的自我监督在诸如旋转和翻转[15]或朴素的注意力裁剪和丢弃[19]等简单空间变换下保持注意一致性的应用。

因此，我们建议通过使用一个新的输出模块，即空间注意输出层（SAOL），来生成更明确、更精确的空间逻辑图和注意力图，并应用有用的自我监督。具体来说，从特征图中，我们分别得到了空间logits（特定位置类响应）和空间注意图。然后，将注意权用于空间逻辑的加权和，得到分类结果。图1显示了与传统输出层相比，提议的输出层的总体结构。

所提出的输出过程可以看作是空间逻辑上的加权平均池，以选择性地集中在目标类区域上。为了获得更精确的空间逻辑，我们将多尺度空间逻辑集合起来，这些逻辑是由用于语义分割的解码器模块启发的[28，32，3]。注意，SAOL可以在前向传播过程中直接生成空间可解释的注意输出和目标对象位置，而无需任何后处理。此外，所提出的SAOL的计算量和参数数目与之前基于GAP-FC的输出层几乎相同。

此外，我们应用了两种新的基于CutMix[41]的位置相关自监督损失来提高泛化能力。我们注意到，与CutMix不同的是，该方法根据混合输入块的面积按比例混合地面真实图像标签，而是利用自注释空间标签根据混合输入进行剪切粘贴。所提出的损失使我们的空间逻辑和注意力图更加完整和准确。我们还探索了一种将传统的GAP-FC和SAOL连接起来并将SAOL-logits蒸馏到GAP-FC的自蒸馏方法。该技术可以在不改变现有cnn结构的情况下，提高现有cnn的性能。

我们在CIFAR-10/100[22]和ImageNet[8]分类任务上使用各种最先进的cnn进行了大量的实验，观察到所提出的具有自监督和自蒸馏功能的SAOL能够持续改进性能，并生成更精确的目标目标定位结果。

我们的主要贡献如下：

新提出的SAOL是在现有CNNs的基础上，通过对特定位置类响应的空间注意机制来提高图像分类性能。
在SAOL中，分别获得标准化的空间注意图，对详细的空间逻辑进行加权平均聚合，使得通过前向传播产生可解释的注意输出和目标定位结果成为可能。
在图像级有监督学习中，采用了新的位置特定的自监督损失和自蒸馏损失来提高SAOL的泛化能力。
在具有不同基准数据集和网络结构的图像分类任务和弱监督目标定位（WSOL）任务中，提出的具有自监督功能的SAOL能够持续提高性能。此外，消融实验表明，更精确的空间注意以及更复杂的位置特异性自我监督也有好处。

2 相关工作

类激活映射。类激活映射方法已被广泛使用（1）用于可视化空间类激活以解释最终分类输出的决策；（2）用于合并基于它的辅助正则化以提高分类性能；（3）用于执行WSOL。具体地说，CAM[47]可以通过将最后的卷积特征映射与最后FC层上与该类相关联的权重线性组合来获得每个类的激活映射。然而，CAM需要用卷积和GAP代替FC层来产生最终的分类输出。另一方面，引导反向传播[34]、反褶积[43]和Grad-CAM[33]被提出用于在不需要改变结构的情况下，利用反向传播中的梯度来生成类注意地图。Grad-CAM++[1]修改Grad-CAM，使用高阶导数更精确地定位同一类的多个实例。这些方法仍然适用于图像级预测的间隙，这通常导致只在目标对象的有区别但未完成的部分突出显示。

注意机制。最近有几篇文章探讨了注意机制在图像分类和WSOL中的应用[21，38，36，10]。

残差注意网络[36]通过堆叠多个软注意模块来修改ResNet[16]，这些模块逐渐细化特征图。

Jetley等人。[21]提出了一个可训练的模块来生成注意权重，以集中于与当前分类任务相关的不同特征区域。

吴等。[38]介绍了一个卷积块注意模块，该模块依次应用信道和空间注意模块来细化中间特征映射。注意分支网络（ABN）[10]基于CAM设计了一个单独的注意分支，生成注意权值，并将其用于对重要特征区域的聚焦。

这些注意方法在细化中间特征映射的同时，将注意力机制应用于输出层，直接改善空间输出逻辑。

Girdhar等人。[12] 介绍了一种基于空间注意的更紧密相关的方法，将空间逻辑集合到动作识别任务中。不过，他们只使用最后一个特征映射的简单线性映射。CutMix和注意力引导的自我监督。作为一种高效而强大的数据扩充方法，CutMix[41]是最近发展起来的，它的性能明显优于以往的数据扩充方法，如Cutout[9]和Mixup[17]。但是，CutMix不能保证随机裁剪的面片始终具有与标签混合相同比例的对应目标对象的一部分。

最近的几项研究利用注意映射导出了辅助自监督损耗。

例如，郭等。[15] 提出在简单空间变换下增强注意一致性，

Hu等。[19] 在数据扩充中应用了注意力的裁剪和丢弃。

Li等人。[25]提出了引导注意推理网络，探索自我引导监督，以优化注意地图。特别是，他们应用了一种带有图像裁剪的注意力挖掘技术来制作完整的地图，但是这些地图都是基于GradCAM获得的。

Zhang等人。[45]引入了对抗性学习，利用CAM发现的互补对象区域来发现整个对象。

Wang等人。[37]提出了新的学习目标，以提高跨层注意力的可分性和注意力一致性。与这些注意引导的自监督学习方法不同，我们利用CutMix设计了一个更复杂的位置特定的自我监督方法。

3 方法

在这一部分中，我们详细描述了被提议的输出层架构SAOL和位置特定的自监督损耗和自蒸馏损耗。

3.1 空间关注输出层

让x和y分别表示输入图像及其一个热编码的地面真实标签。对于基于CNN的图像分类，输入 $X^0=x$ 首先输入到连续的L卷积块 ${Θℓ(·)} ^L_ (ℓ=1)$ ${\theta _l (\cdot )} ^L_ {l=1}$ ，中间块 ℓ 的特征映射 $X_l \in R ^{C_l×H_l×W_l}$ 通过 $X_l = \theta_l(X^{l-1})$ 来计算。这里 $H_l, W_l , C_l$ 是块的高度、宽度和通道数。然后，最终归一化输出逻辑 ˆy∈[0,1]K，能够被作为K类上的输出概率分布，通过输出层 $O(\cdot)$ 得到，即 $\hat y = O(X^L)$ 。具体而言，传统的基于GAP-FC的输出层 $O_{GAP-FC}(\cdot)$ 可以表示为

其中 $\bar X ^L_{GAP} \in R^{C_L \times 1}$ 表示通过GAP聚合的空间特征向量。这里， $W^{FC} \in \mathbb{R}^{C_L\times K}$ 是输出全连接层的权重矩阵。其中 $(\bar X ^ L _{GAP})_c =\frac{\sum_{i,j} (X^L_c)_(ij)}{H_lW_l}$ , 其中 $( X ^L_{c} )_{ij}$ 是 $C_{th}$ 特征图 $X^L_c$ 中的 $(i,j)_{th}$ 元素中的最后一块.。我们的方法不是在最后一个特征图上进行聚合，而是在每个空间位置上显式生成输出logit，然后通过空间关注机制有选择地聚合它们。

具体来说，本文提出的SAOL， $O_{SAOL}(\cdot )$ 首先分别生成空间注意映射, $A \in [0,1]^{H_o \times W_o}$ ，和空间逻辑图, $Y \in [0,1]^{K \times H_o \times W_o}$ 。这里需要注意的是，我们在默认情况下设置了 $H_o=H_L$ 和 $W_o=W_L$ 。注意值通过softmax在空间位置上进行规范化，而我们将softmax用于跨类的空间逻辑： $\sum _{i,j} A_{ij} = 1, \forall k$ 并且 $\sum _k(Y_k)_{ij} = 1, \forall {i, j}$ 。然后，我们通过空间逻辑的空间加权和生成最终的输出逻辑，如下所示：

其中 $\hat y_k$ 是k类的输出逻辑。这些注意权重表明每个空间位置对分类结果的相对重要性。

图2：拟议的SAOL的详细结构。它分别生成空间关注图和空间logit。请注意，我们使用其他自注释空间标签来进一步利用我们的体系结构。我们还可以使用自蒸馏技术共同训练基于常规GAP-FC的输出层。

图2详细描述了SAOL中的体系结构。首先，我们将最后一个卷积特征图输入到两层卷积中，然后用softmax函数得到空间注意图。同时，为了得到精确的空间逻辑，我们结合了多尺度空间逻辑，在之前的解码模块的激励下进行语义分割[28，32，3]。具体地说，在每个选定的块上，特征映射在调整到输出空间分辨率后通过卷积映射到中间空间逻辑。然后，通过另一个卷积层和softmax函数将一组中间空间逻辑串接并重新映射到最终的空间逻辑。注意，与CAM[47]和Grad-CAM[33]相比，该SAOL可以使用并以前馈方式直接生成空间上可解释的注意力输出或目标对象位置。这使得可以在训练期间使用特定于位置的正则化器，如下一小节所述。AXY公司我

3.2 自我监督损失

所提出的SAOL在训练时表现良好，即使只使用一般交叉熵损失LCE作为我们的监督损失，使得 $L_{SL}=L_{CE}(\hat y_{SAOL}, y) ^{\color{Red} 1}$ 。然而，为了充分利用位置特定的输出信息来提高分类性能，我们在CutMix[41]和自监督学习方法[11,24]的启发下增加了两个新的空间损失。

${\color{Red} ^1}$ 我们让 $\hat y_{GAP-FC}$ 和 $\hat y_{SAOL}$ 分别表示基于GAPFC的输出层和SAOL的最终输出logit

CutMix通过混合某个样本（xB，yB）和从另一个样本（xA，yA）中提取的随机补丁生成新的训练样本( x', y')，如下所示：

图3：针对SAOL提出的两个基于CutMix的自我监督：（a）LSS1和（b）LSS2。

其中 $M$ 表示用于剪切和粘贴矩形区域的二进制掩码，是使用beta分布采样的组合比率。这种标签混合策略意味着一个切割区域的含义应该与标签上下文中的裁剪区域大小相同。然而，这种假设通常是不正确的，因为随机裁剪的面片可能无法捕捉到相应目标对象的一部分，特别是当目标对象很小时。

具体来说，我们使用两个额外的自注释空间标签和自监督损失，如图3所示。给定CutMix-ed 输入图像，在图像大小调整为 $H_o \times W_o$ 后，第一个自监督损失L_ss1使用M作为附加的标签。我们加入一个类似于注意层的辅助层来预测 $\hat M \in [0,1]^{H_o \times W_o}$ ，因为它是二元掩模，所以用二元交叉熵损失作为：

我们提出的第二个自监督损失LSS2是将混合输入粘贴区域的空间逻辑与原始数据剪切区域的空间逻辑进行匹配，如下所示：

其中 D_KL 表示 Kullback-Leibler 散度，并Y_A 表示 X_A 的空间逻辑。由于这些自我监督使网络规则化，要么识别特定的粘贴位置，要么在粘贴区域中产生相同的空间逻辑，这些可以导致空间上一致的特征表示，从而提高性能。请注意，我们只从M⊙Y′通过梯度更新网络。

3.3 自蒸馏损失

因为我们可以在现有的cnn中插入所建议的SAOL，所以在训练期间我们同时使用了之前基于GAP-FC的输出层和SAOL，如图2所示。具体来说，我们提出了从SAOL到现有输出层的知识转移。为此，我们设计了一个自蒸馏损失LSD，其中两个输出层分别从给定的输入图像中获得两个最终输出逻辑，如下所示：

其中 $\beta$ 是两个损失项之间的相对权重，类似于其他自蒸馏方法[44，24]。我们设 $\beta$ 为0.5。在测试时，我们只取两个输出模块中的一个来产生分类结果。如果我们选择基于GAP-FC的输出层，在测试时可以在不增加计算量的情况下改善现有CNN的分类性能，其计算消耗可以忽略不计。

最后，我们在训练中使用的最终损失L定义为

可使用不同的损失率进行进一步改进。

4 实验

与以前的方法相比，我们用自我监督和自我蒸馏来评估我们的SAOL。在第4.1节中，我们首先研究了我们提出的方法对几个分类任务的影响。然后，为了对获得的注意图进行定量评价，在4.2节中进行了WSOL实验。

所有实验都是通过修改官方的CutMix源代码在PyTorch[30]中实现的。为了进行公平的比较，我们尽量不改变CutMix[41]和ABN[10]等基线的超参数。通过提出的端到端自蒸馏损失，我们同时训练了SAOL和基于GAP-FC的输出层。在测试时，我们分别用SAOL和基于GAP-FC的输出层得到分类结果。

4.1 图像分类任务

4.1.1 CIFAR-10、CIFAR-100分类

图像分类的第一次性能评估是在CIFAR-10和CIFAR-100基准测试[22]上进行的，这是研究最广泛的分类任务之一。我们对AutoAugment[6]中的宽ResNet[42]使用了相同的超参数。ResNet和DenseNet模型在ABN[10]的相同设置下进行训练，以便相互比较。对于pyraminet200（加宽因子±=240），我们使用了与CutMix[41]中相同的超参数，除了学习率和它的衰减时间表。我们使用0.1作为余弦退火调度的初始学习率[29]。虽然我们的基线并没有通过这一微小的改变获得更好的结果，但是提议的SAOL实现了显著的性能改进。每个实验进行了五次以报告其平均性能。α

表1和表2分别比较了CIFAR-10和CIFAR-100的基线和拟议方法。除DenseNet-100外，所有型号的SAOL均优于基线。此外，在CIFAR-10的大多数情况下，SAOL比自蒸馏GAP-FC有明显的改善。然而，我们的自蒸馏GAP-FC也始终优于基线。这意味着，即使没有对象定位标签等空间监督，SAOL也可以适当地学习空间注意，并最终表现出比平均特征更好的效果。当我们在训练中额外使用CutMix时，这种持续的改进也得到了保留。

我们还将SAOL与最近提出的ABN进行了比较[10]。这两种方法在使用注意地图方面有相似之处。然而，SAOL使用注意力映射来聚合空间输出逻辑。相比之下，ABN只在最后一个特征图上使用了注意机制，并适应了之前的GAP-FC层。对于ResNet-110和DenseNet-100，我们使用与ABN相同的超参数训练模型。ResNet110和DenseNet-100在CIFAR-10上的准确率分别为95.09%、95.83%，CIFAR-100的准确率分别为77.19%、78.37%。这些结果表明，SAOL模型的性能比ABN模型好得多。我们强调ABN也需要更多的计算。具体来说，带有ABN的ResNet-110需要5.7 GFLOPs，而带有SAOL的ResNet-110只需要2.1 GFLOPs。由于原来的ResNet-110计算量高达1.7gflops，SAOL不仅比ABN更有效和高效，而且还提供了一种通过自蒸馏保持计算量不变的方法。

4.1.2 ImageNet分类

我们还根据ILSVRC 2012分类基准（ImageNet）[8]对SAOL进行评估，该基准包括120万个用于培训的自然图像和用于1000个课程验证的50000个图像。我们对CutMix使用了相同的超参数[41]。为了更快地进行培训，我们只需将批处理大小更改为4096个，线性重新调整学习速率和逐步预热计划，如[14]中所述。