SegNeXt：重新思考用于语义分割的卷积注意力

原创

已于 2023-12-05 22:16:41 修改 · 1.6k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #神经网络 #机器学习 #学习 #原型模式

于 2023-08-01 11:06:30 首次发布

本文提出用于语义分割的卷积网络架构SegNeXt，展示卷积注意力编码上下文信息更高效。它具备强大主干网络、多尺度信息交互等特点，通过多尺度卷积特征唤起空间注意力。实验表明，SegNeXt在多个分割基准上大幅提升性能，且计算成本更低。

&原文信息

原文题目：《SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation》

原文引用：Guo M H, Lu C Z, Hou Q, et al. Segnext: Rethinking convolutional attention design for semantic segmentation[J]. Advances in Neural Information Processing Systems, 2022, 35: 1140-1156.

原文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/08050f40fff41616ccfc3080e60a301a-Paper-Conference.pdfhttps://proceedings.neurips.cc/paper_files/paper/2022/file/08050f40fff41616ccfc3080e60a301a-Paper-Conference.pdf

0.摘要

我们提出了SegNeXt，这是一种简单的卷积网络架构，用于语义分割。最近基于transformer的模型在语义分割领域占据主导地位，这是由于自注意力在编码空间信息方面的高效性。在本文中，我们展示了卷积注意力是一种比transformer中的自注意力机制更高效和有效地编码上下文信息的方式。通过重新审视成功的分割模型所拥有的特性，我们发现了几个关键组件，这些组件导致了分割模型性能的提升。这激励我们设计了一种新颖的卷积注意力网络，它使用廉价的卷积操作。没有花哨的东西，我们的SegNeXt在流行的基准测试中显著提高了以前最先进方法的性能，包括ADE20K、Cityscapes、COCO-Stuff、Pascal VOC、Pascal Context和iSAID。值得注意的是，SegNeXt在仅使用其1/10参数的情况下超过了EfficientNet-L2 w/ NAS-FPN，在Pascal VOC 2012测试排行榜上达到了90.6%的mIoU。平均而言，SegNeXt在ADE20K数据集上与最先进方法相比，mIoU提高了约2.0%，计算量相同或更少。

1.引言

作为计算机视觉中最基础的研究课题之一，语义分割旨在为每个像素分配一个语义类别，在过去的十年中引起了广泛关注。从早期的基于CNN的模型，如FCN和DeepLab系列，到最近的基于transformer的方法，如SETR和SegFormer，语义分割模型在网络架构方面经历了重大革命。

通过重新审视以前成功的语义分割作品，我们总结了一些不同模型具有的关键特性，如表1所示。基于以上观察，我们认为一个成功的语义分割模型应具备以下特点：

(i) 强大的主干网络作为编码器。与以前的基于CNN的模型相比，基于transformer的模型的性能改进主要来自更强大的主干网络。

(ii) 多尺度信息交互。不同于主要识别单个对象的图像分类任务，语义分割是一项密集预测任务，因此需要在单个图像中处理不同大小的对象。

(iii) 空间注意力。空间注意力允许模型通过对语义区域内的区域进行优先级排序来进行分割。

(iv) 低计算复杂度。当处理来自遥感和城市场景的高分辨率图像时，这一点尤为重要。

考虑到上述分析，在本文中，我们重新思考了卷积注意力的设计，并提出了一种高效而有效的用于语义分割的架构。与以前的基于transformer的模型在解码器中使用卷积作为特征优化器不同，我们的方法颠倒了transformer-卷积编码器-解码器的架构。具体而言，对于我们编码器中的每个块，我们改进了传统卷积块的设计，并利用多尺度卷积特征通过简单的逐元素乘法来唤起空间注意力，这是在[25]之后的一种方法。我们发现，这种简单的构建空间注意力的方式比标准卷积和自注意力在空间信息编码方面更有效率。对于解码器，我们从不同阶段收集多级特征，并使用Hamburger [22]进一步提取全局上下文。在这种设置下，我们的方法可以从局部到全局获取多尺度的上下文，实现在空间和通道维度上的适应性，并从低级别到高级别聚合信息。

我们的网络被称为SegNeXt，除了解码器部分外，它主要由卷积操作组成，解码器部分包含一个基于分解的Hamburger模块[22]（Ham）用于全局信息提取。这使得我们的SegNeXt比之前严重依赖于transformer的分割方法更加高效。如图1所示，SegNeXt在性能上显著优于最近的基于transformer的方法。特别是，在处理来自Cityscapes数据集的高分辨率城市场景时，我们的SegNeXt-S在仅使用约1/6（124.6G vs. 717.1G）的计算成本和1/2（1