SegNeXt:重新思考用于语义分割的卷积注意力

本文提出用于语义分割的卷积网络架构SegNeXt,展示卷积注意力编码上下文信息更高效。它具备强大主干网络、多尺度信息交互等特点,通过多尺度卷积特征唤起空间注意力。实验表明,SegNeXt在多个分割基准上大幅提升性能,且计算成本更低。

&原文信息

原文题目:《SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation》

原文引用:Guo M H, Lu C Z, Hou Q, et al. Segnext: Rethinking convolutional attention design for semantic segmentation[J]. Advances in Neural Information Processing Systems, 2022, 35: 1140-1156.

原文链接:https://proceedings.neurips.cc/paper_files/paper/2022/file/08050f40fff41616ccfc3080e60a301a-Paper-Conference.pdficon-default.png?t=N7T8https://proceedings.neurips.cc/paper_files/paper/2022/file/08050f40fff41616ccfc3080e60a301a-Paper-Conference.pdf

0.摘要

        我们提出了SegNeXt,这是一种简单的卷积网络架构,用于语义分割。最近基于transformer的模型在语义分割领域占据主导地位,这是由于自注意力在编码空间信息方面的高效性。在本文中,我们展示了卷积注意力是一种比transformer中的自注意力机制更高效和有效地编码上下文信息的方式。通过重新审视成功的分割模型所拥有的特性,我们发现了几个关键组件,这些组件导致了分割模型性能的提升。这激励我们设计了一种新颖的卷积注意力网络,它使用廉价的卷积操作。没有花哨的东西,我们的SegNeXt在流行的基准测试中显著提高了以前最先进方法的性能,包括ADE20K、Cityscapes、COCO-Stuff、Pascal VOC、Pascal Context和iSAID。值得注意的是,SegNeXt在仅使用其1/10参数的情况下超过了EfficientNet-L2 w/ NAS-FPN,在Pascal VOC 2012测试排行榜上达到了90.6%的mIoU。平均而言,SegNeXt在ADE20K数据集上与最先进方法相比,mIoU提高了约2.0%,计算量相同或更少。

1.引言

        作为计算机视觉中最基础的研究课题之一,语义分割旨在为每个像素分配一个语义类别,在过去的十年中引起了广泛关注。从早期的基于CNN的模型,如FCN和DeepLab系列,到最近的基于transformer的方法,如SETR和SegFormer,语义分割模型在网络架构方面经历了重大革命。

        通过重新审视以前成功的语义分割作品,我们总结了一些不同模型具有的关键特性,如表1所示。基于以上观察,我们认为一个成功的语义分割模型应具备以下特点:

        (i) 强大的主干网络作为编码器。与以前的基于CNN的模型相比,基于transformer的模型的性能改进主要来自更强大的主干网络。

        (ii) 多尺度信息交互。不同于主要识别单个对象的图像分类任务,语义分割是一项密集预测任务,因此需要在单个图像中处理不同大小的对象。

        (iii) 空间注意力。空间注意力允许模型通过对语义区域内的区域进行优先级排序来进行分割。

        (iv) 低计算复杂度。当处理来自遥感和城市场景的高分辨率图像时,这一点尤为重要。

        考虑到上述分析,在本文中,我们重新思考了卷积注意力的设计,并提出了一种高效而有效的用于语义分割的架构。与以前的基于transformer的模型在解码器中使用卷积作为特征优化器不同,我们的方法颠倒了transformer-卷积编码器-解码器的架构。具体而言,对于我们编码器中的每个块,我们改进了传统卷积块的设计,并利用多尺度卷积特征通过简单的逐元素乘法来唤起空间注意力,这是在[25]之后的一种方法。我们发现,这种简单的构建空间注意力的方式比标准卷积和自注意力在空间信息编码方面更有效率。对于解码器我们从不同阶段收集多级特征,并使用Hamburger [22]进一步提取全局上下文。在这种设置下,我们的方法可以从局部到全局获取多尺度的上下文,实现在空间和通道维度上的适应性,并从低级别到高级别聚合信息。

        我们的网络被称为SegNeXt,除了解码器部分外,它主要由卷积操作组成,解码器部分包含一个基于分解的Hamburger模块[22](Ham)用于全局信息提取。这使得我们的SegNeXt比之前严重依赖于transformer的分割方法更加高效。如图1所示,SegNeXt在性能上显著优于最近的基于transformer的方法。特别是,在处理来自Cityscapes数据集的高分辨率城市场景时,我们的SegNeXt-S在仅使用约1/6(124.6G vs. 717.1G)的计算成本和1/2(1

### SegNext 语义分割简介 SegNext 是一种高效的语义分割模型,其设计目标是在保持高精度的同时降低计算复杂度。它通过引入轻量化的架构以及优化的空间和通道注意力机制来实现这一目标[^1]。 #### 架构特点 SegNext 的核心在于采用了单层分支结构并结合语义提取变换器(Semantic Extraction Transformer, SET)。这种设计使得模型能够在推理阶段无需额外的分支或复杂的融合模块即可完成任务。相比于其他方法如解耦双边网络(Decoupled Bilateral Network)或者特征共享双边网络(Feature Sharing Bilateral Network),SegNext 更加简洁高效。 ```python import torch from segnext import SegNextModel model = SegNextModel(pretrained=True) def infer(image_tensor): with torch.no_grad(): output = model(image_tensor) return output.argmax(dim=1).cpu().numpy() ``` 上述代码展示了如何加载预训练好的 SegNext 模型并对输入图像张量执行推断操作。注意这里假设 `segnext` 库已经安装完毕并且包含了完整的定义与权重文件。 #### 关键组件分析 - **语义提取变换器 (SET)** 这部分负责捕捉全局上下文信息并通过自注意力机制增强局部区域的理解能力。相比传统卷积神经网络中的固定感受野大小,SET 能够动态调整关注范围从而更好地适应不同尺度的目标对象。 - **单一层次分支** 不同于多分支的设计思路,SegNext 将所有处理逻辑集中在一个统一框架下运行。这样不仅减少了参数数量还加快了前向传播速度。 - **无昂贵融合模块需求** 在许多现有解决方案里都需要专门设计用来综合来自多个路径的信息的 FM(Fusion Module),而 SegNext 利用了更简单的策略避免此类开销。 ### 性能表现 实验表明,在相同硬件条件下对比多种主流算法时,SegNext 展现出显著优势——既达到了较高的 mIoU 值又维持较低 FLOPs 数值水平。这使其非常适合部署到资源受限环境下的实际应用场景当中去。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值