Squeeze-and-Attention Networks for Semantic Segmentation

最新推荐文章于 2024-09-12 07:40:06 发布

原创

最新推荐文章于 2024-09-12 07:40:06 发布 · 736 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #网络 #目标检测 #计算机视觉

本文提出新颖的squeeze-and-attention网络（SANet）架构用于语义分割。将语义分割分解为像素级预测和像素组合两个子任务，设计SA模块考虑这两个特征。通过在PASCAL Context和PASCAL VOC数据集实验，验证了SANet的有效性和高效性。

0.摘要

最近，将注意力机制整合到分割网络中可以通过更重视提供更多信息的特征来提高它们的表征能力。然而，这些注意力机制忽视了语义分割的一个隐含子任务，并受到卷积核的网格结构的限制。在本文中，我们提出了一种新颖的squeeze-and-attention网络（SANet）架构，利用一个有效的squeeze-and-attention（SA）模块来考虑分割的两个独特特征：i）像素组注意力，和ii）像素级预测。具体来说，所提出的SA模块通过引入“注意力”卷积通道，将像素组注意力施加于传统的卷积上，从而以高效的方式考虑空间-通道的相互依赖关系。最终的分割结果是通过合并SANet的四个层次阶段的输出来进行的，以获得增强的像素级预测的多尺度上下文。对两个具有挑战性的公共数据集进行的实证实验验证了所提出的SANet的有效性，其在PASCAL VOC数据集上达到了83.2%的mIoU（无COCO预训练），并在PASCAL Context数据集上实现了54.4%的state-of-the-art mIoU。

1.引言

分割网络已成为自动驾驶、医学图像分析、机器人导航和虚拟现实等领域的关键识别元素。分割方法的进展主要是通过改进像素级表示以实现准确的标注。然而，语义分割并不完全等同于像素级预测。在本文中，我们认为语义分割可以分解为两个独立的维度：像素级预测和像素组合。具体而言，像素级预测地址了每个像素的预测，而像素组合则强调像素之间的连接。以前的分割工作主要关注从像素级别改进分割性能，但很大程度上忽视了像素组合的隐含任务。通过将语义分割分解为两个子任务，可以发现被广泛忽视的像素组合任务。如图1所示，第一个子任务要求精确的像素级注释，为图像分类引入了空间约束。最近的分割模型通过使用金字塔池化和扩张卷积层来聚合上下文特征，以进行像素级标注，取得了显著的进展。然而，这些卷积核的网格结构限制了在分割网络中学习到的空间特征的形状。特征聚合策略增强了像素级预测结果，但对于全局图像理解的视角仍未充分利用。

为此，我们引入了像素组合的第二个子任务，直接鼓励将属于同一类的像素组合在一起，而不受空间限制。像素组合涉及将从一系列电磁波谱采样的图像转化为在任务特定语义谱中定义的像素组，其中语义谱的每个条目对应一个类。受到设计一个考虑像素组合的模块的启发，我们设计了一种新颖的squeeze-and-attention（SA）模块来缓解卷积核的局部约束。SA模块包含下采样但未完全压缩的注意力通道，以有效产生非局部的空间注意力，同时避免在输出头中使用大幅度扩张的卷积。具体而言，我们使用注意力卷积来生成注意力蒙版，因为每个卷积核都会在输入特征图上扫过。与增强骨干网络的SE模块不同，SA模块将空间注意力整合到网络的头部单元中，它们的输出被汇聚以提高分割性能。由SA模块引入的空间注意机制强调了不同空间尺度上属于同一类的像素组的关注。此外，压缩通道可以作为全局注意力蒙版。

我们设计了包含四个SA模块的SANets来处理分割的上述两个任务。SA模块学习多尺度的空间特征和非局部的光谱特征，从而克服卷积层在分割中的限制。我们使用扩张ResNet和Efficient Nets作为骨干网络，以充分发挥它们在图像识别方面的强大能力。为了聚合多阶段的非局部特征，我们在骨干网络的多个阶段输出上采用SA模块，从而得到更好的物体边界和场景解析结果。这种简单但有效的创新使得将SANets推广到其他相关的视觉识别任务更加容易。我们使用两个具有挑战性的分割数据集（PASCAL context和PASCAL VOC 2012）验证了SANets的性能。本文的贡献有三个方面:

•我们将语义分割分解为两个子任务：像素级的密集预测和像素组合。

•我们设计了一种称为squeeze-and-attention（SA）模块，它同时考虑了个体像素的多尺度密集预测和像素组的空间注意力。

•我们提出了一种multi-level heads的squeeze-and-attention网络（SANet），以利用SA模块的表示增强能力，并集成多尺度的上下文特征和图像级别的类别信息。

图1：语义分割可以分解为两个子任务：明确的像素级预测和隐式的像素分组。这两个任务将语义分割与图像分类分开。受到像素分组的设计的启发，我们设计了一个新颖的压缩注意力（SA）模块以及一个SANet，以提高稠密预测的性能并解决被忽视的像素分组问题。图2：（a）残差块；（b）压缩和激励（SE）模块；（c）压缩和注意（SA）模块。为了简化，我们展示了卷积（CONV）、全连接（FC）、平均池化（Avg.Pool）层，但省略了归一化和激活层。SA模块具有与SE模块类似的结构，其中包含一个额外的路径来学习重新校准输出特征图Xout的通道权重。不同之处在于SA模块的注意力通道使用平均池化来降采样特征图，而不是像SE模块中那样完全压缩。因此，我们将该通道称为注意卷积（ACONV）通道。