Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspectivewith Transformers(SETR)翻译

摘要

最新的语义分割方法采用具有编码器-解码器架构的全卷积网络(FCN)。编码器逐步降低空间分辨率,并学习具有更大感受野的更抽象/语义化的视觉概念。由于上下文建模对分割至关重要,因此最新的研究重点是通过扩张/空洞卷积或插入注意力模块来增大感受野。然而,基于编码器-解码器的FCN架构保持不变。在本文中,我们旨在通过将语义分割视为序列到序列的预测任务来提供一个不同的视角。具体来说,我们部署了一个纯Transformer(即没有卷积和分辨率降低)来将图像编码为一系列补丁。由于Transformer的每一层都对全局上下文进行了建模,因此可以将此编码器与一个简单的解码器相结合,以提供一个强大的分割模型,称为SEgmentation TRansformer(SETR)。大量实验表明,SETR在ADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)上取得了最新的最优水平,并在Cityscapes上取得了具有竞争力的结果。特别是,在提交当天,我们在竞争激烈的ADE20K测试服务器排行榜上取得了第一名。

1. 引言

自从[36]的开创性工作以来,现有的语义分割模型大多基于全卷积网络(FCN)。一个标准的FCN分割模型具有编码器-解码器架构:编码器用于特征表示学习,而解码器则用于对编码器产生的特征表示进行像素级分类。在这两者中,特征表示学习(即编码器)可以说是最重要的模型组件[8, 28, 57, 60]。编码器,就像大多数其他为图像理解而设计的卷积神经网络(CNN)一样,由堆叠的卷积层组成。由于计算成本的考虑,特征图的分辨率逐渐降低,因此编码器能够学习具有逐渐增大的感受野的更抽象/语义化的视觉概念。这种设计之所以流行,得益于两个优点,即平移等变性和局部性。前者很好地尊重了成像过程的本质[58],这是模型能够泛化到未见图像数据的基础。而后者则通过跨空间共享参数来控制模型复杂度。然而,这也带来了一个根本性的限制,即学习长距离依赖信息对于无约束场景图像中的语义分割至关重要[2,50],但由于感受野仍然有限,因此变得具有挑战性。

为了克服上述限制,最近引入了许多方法。一种方法是直接操作卷积运算,包括大内核尺寸[40]、空洞卷积[8, 22]和图像/特征金字塔[60]。另一种方法是将注意力模块集成到FCN架构中。这样的模块旨在模拟特征图中所有像素的全局交互[48]。当应用于语义分割时[25, 29],常见的设计是将注意力模块与FCN架构相结合,注意力层位于顶部。无论采用哪种方法,标准的编码器-解码器FCN模型架构都保持不变。最近,有人尝试完全摒弃卷积,转而部署仅使用注意力的模型[47]。但是,即使没有卷积,它们也没有改变FCN模型结构的本质:编码器降低输入的空间分辨率,生成用于区分语义类别的低分辨率特征映射,而解码器则将特征表示上采样为全分辨率分割图。在本文中,我们旨在为语义分割模型设计提供一种新思路,并贡献一种替代方案。特别是,我们建议用纯Transformer[45]替换基于堆叠卷积层的编码器,该编码器逐渐降低空间分辨率,从而得到一种新的分割模型,称为SEgmentation Transformer(SETR)。这种仅使用Transformer的编码器将输入图像视为由学习的补丁嵌入表示的图像补丁序列,并通过全局自注意力建模来转换该序列,以进行判别性特征表示学习。具体来说,我们首先将图像分解为固定大小的补丁网格,形成一个补丁序列。将每个补丁的展平像素向量应用线性嵌入层后,我们得到一系列特征嵌入向量作为Transformer的输入。给定来自编码器Transformer的学习特征,然后使用解码器来恢复原始图像分辨率。至关重要的是,在编码器Transformer的每一层中都没有空间分辨率的下采样,但进行了全局上下文建模,从而为语义分割问题提供了一个全新的视角。

这种纯Transformer设计受到其在自然语言处理(NLP)中巨大成功的启发[15,45]。最近,纯视觉Transformer或ViT[17]已被证明在图像分类任务中有效。这直接证明了传统的堆叠卷积层(即CNN)设计是可以挑战的,并且图像特征不一定需要通过降低空间分辨率来从局部到全局逐渐学习。然而,将纯Transformer从图像分类扩展到对空间位置敏感的语义分割任务并非易事。我们凭经验证明,SETR不仅为模型设计提供了一种新思路,而且在多个基准测试中达到了最新的最优水平。本文的主要贡献如下:(1)我们从序列到序列学习的角度重新定义了图像语义分割问题,为占主导地位的编码器-解码器FCN模型设计提供了一种替代方案。(2)作为实例化,我们利用Transformer框架,通过序列化图像来实现我们的全注意力特征表示编码器。(3)为了广泛考察自注意力特征表示,我们进一步引入了三种不同复杂度的解码器设计。广泛的实验表明,与具有和不具有注意力模块的不同FCN相比,我们的SETR模型能够学习更优越的特征表示,在ADE20K(50.28%)、Pascal Context(55.83%)上达到了最新的最优水平,并在Cityscapes上取得了具有竞争力的结果。特别地,我们的参赛作品在竞争激烈的ADE20K测试服务器排行榜上排名第一。

2.相关工作

语义分割:随着深度神经网络的发展,语义图像分割得到了显著提升。通过移除全连接层,全卷积网络(FCN)[36]能够实现像素级预测。虽然FCN的预测结果相对粗糙,但开发了几种基于CRF/MRF[6, 35, 62]的方法来帮助细化这些粗糙预测。为了解决语义和位置之间的固有矛盾[36],需要对编码器和解码器的粗层和细层进行聚合。这导致了编码器-解码器结构的不同变体[2, 38, 42],用于多级特征融合。

许多最近的研究工作都集中在解决FCN中感受野有限/上下文建模问题。为了扩大感受野,DeepLab[7]和Dilation[53]引入了空洞卷积。另外,上下文建模是PSPNet[60]和DeepLabV2[9]的焦点。前者提出了PPM模块来获取不同区域的上下文信息,而后者开发了ASPP模块,该模块采用具有不同扩张率的金字塔空洞卷积。还利用分解的大内核[40]进行上下文捕获。最近,基于注意力的模型在捕获长距离上下文信息方面很受欢迎。PSANet[61]开发了逐点空间注意力模块,用于动态捕获长距离上下文。DANet[18]嵌入了空间注意力和通道注意力。CCNet[26]则专注于减少由全空间注意力引入的繁重计算预算。DGMN[57]构建了一个动态图消息传递网络用于场景建模,可以显著降低计算复杂度。请注意,所有这些方法仍然基

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值