NeurIPS2022 | SegNeXt，重新思考卷积注意力设计

最新推荐文章于 2025-05-18 16:16:37 发布

原创

最新推荐文章于 2025-05-18 16:16:37 发布 · 1.1w 阅读

86 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #计算机视觉 #人工智能

本文提出SegNeXt，一种用于语义分割的高效卷积网络架构。通过对成功模型的关键特征进行分析，设计了一种新的多尺度卷积注意力模块，显著提升了在多个基准上的性能。

NeurIPS2022 | SegNeXt，重新思考卷积注意力设计

【写在前面】

本文提出了 SegNeXt，一种用于语义分割的简单卷积网络架构。由于自注意力在编码空间信息方面的效率，最近基于transformer的模型在语义分割领域占据主导地位。在本文中，作者展示了卷积注意力是一种比transformer中的自注意力机制更有效和高效的方式来编码上下文信息。通过重新检查成功的分割模型所拥有的特征，作者发现了导致分割模型性能改进的几个关键组件。这促使作者设计一种使用廉价卷积操作的新型卷积注意力网络。本文的 SegNeXt 显着提高了以前最先进方法在流行基准上的性能，包括 ADE20K、Cityscapes、COCO-Stuff、Pascal VOC、Pascal Context 和 iSAID。值得注意的是，SegNeXt 的性能优于带 NAS-FPN 的 EfficientNet-L2，并且仅使用其 1/10 的参数就在 Pascal VOC 2012 测试排行榜上实现了 90.6% 的 mIoU。与在 ADE20K 数据集上使用相同或更少计算的最先进方法相比，SegNeXt 平均实现了约 2.0% 的 mIoU 改进。

1. 论文和代码地址

SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation

论文地址：https://github.com/Visual-Attention-Network/SegNeXt/blob/main/resources/paper.pdf

代码地址：https://github.com/Visual-Attention-Network/SegNeXt

2. 动机

作为计算机视觉中最基本的研究课题之一，旨在为每个像素分配一个语义类别的语义分割在过去十年中引起了极大的关注。从早期的基于 CNN 的模型，以 FCN和 DeepLab 系列为代表，到最近的基于Transformer的方法，以 SETR和SegFormer为代表，语义分割模型在网络架构方面经历了重大变革。

通过重新审视之前成功的语义分割工作，作者总结了不同模型拥有的几个关键属性，如上表所示。基于上述观察，作者认为一个成功的语义分割模型应该具有以下特点： (i) 强大的骨干网络作为编码器。与之前基于 CNN 的模型相比，基于 Transformer 的模型的性能提升主要来自更强大的骨干网络。 (ii) 多尺度信息交互。与主要识别单个对象的图像分类任务不同，语义分割是一项密集的预测任务，因此需要在单个图像中处理不同大小的对象。 (iii) 空间注意力。空间注意力允许模型通过语义区域内区域的优先级来执行分割。 (iv) 计算复杂度低。这在处理来自遥感和城市场景的高分辨率图像时尤其重要。

考虑到上述分析，在本文中，作者重新思考了卷积注意力的设计，并提出了一种高效且有效的语义分割编码器-解码器架构。与之前在解码器中使用卷积作为特征细化器的基于Transformer的模型不同，本文的方法反转了Transformer-卷积编码器-解码器架构。具体来说，对于编码器中的每个块，作者更新了传统卷积块的设计，并利用多尺度卷积特征通过简单元素乘法来唤起空间注意力。作者发现这种建立空间注意力的简单方法比空间信息编码中的标准卷积和自注意力更有效。对于解码器，作者从不同阶段收集多级特征，并使用 Hamburger进一步提取全局上下文。在此设置下，本文的方法可以获得从局部到全局的多尺度上下文，实现空间和通道维度的适应性，以及从低到高的信息聚合。

本文的网络，称为 SegNeXt，主要由卷积操作组成，除了解码器部分，它包含一个基于分解的 Hamburger 模块 (Ham)，用于全局信息提取。这使得本文的 SegNeXt 比以前严重依赖Transformer的分割方法更有效。如上图所示，SegNeXt 明显优于最近基于Transformer的方法。特别是，本文的 SegNeXt-S 仅使用大约 1/6（124.6G 对 717.1G）的计算成本和 1/2 的参数（13.9M 对 27.6M）就在Cityscapes 数据集上优于 SegFormer-B2（81.3% 对 81.0%）。
本文的贡献可以总结如下：

本文确定了一个好的语义分割模型应该拥有的特征，并提出了一种新颖的定制网络架构，称为SegNeXt，它通过多尺度卷积特征唤起空间注意力。、
作者表明，具有简单且廉价卷积的编码器仍然可以比视觉Transformer表现更好，尤其是在处理对象细节时，同时它需要的计算成本要低得多。
本文的方法在各种分割基准上大幅提高了最先进的语义分割方法的性能，包括 ADE20K、Cityscapes、COCO-Stuff、Pascal VOC、Pascal Context 和 iSAID。

3. 方法

3.1 Convolutional Encoder

在大多数先前的工作之后，作者为编码器采用金字塔结构。对于编码器中的构建块，作者采用了与 ViT类似的结构，但不同的是没有使用自注意机制，而是设计了一种新颖的多尺度卷积注意 (MSCA) 模块.如图 2 (a) 所示，MSCA 包含三个部分：用于聚合局部信息的深度卷积，用于捕获多尺度上下文的多分支深度条带卷积，以及用于建模不同通道之间关系的 1×1 卷积。 1×1卷积的输出直接用作注意力权重来重新加权MSCA的输入。在数学上，MSCA 可以写成：

$=\operatorname{Conv}_{1 \times 1}\left(\sum_{i=0}^{3} \operatorname{Scale}_{i}(\mathrm{DW}-\operatorname{Conv}(F))\right)\\Out =\mathrm{Att} \otimes F$