二十四章:SEgmentation TRansformer (SETR)——以Transformer的序列到序列的视角重新思考语义分割问题

本文提出了SegmentationTransformer(SETR)模型,重新定义了语义分割问题,采用纯Transformer架构替代FCN,通过全局自注意力进行序列到序列学习,解决了传统方法中感受野有限的问题。SETR在多个数据集上取得了最先进的结果,证明了其在特征表示学习上的优越性。

&原文信息

原论文题目:<Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers>

引用:Zheng S, Lu J, Zhao H, et al. Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021: 6881-6890.

原论文链接:https://openaccess.thecvf.com/content/CVPR2021/papers/Zheng_Rethinking_Semantic_Segmentation_From_a_Sequence-to-Sequence_Perspective_With_Transformers_CVPR_2021_paper.pdfhttps://openaccess.thecvf.com/content/CVPR2021/papers/Zheng_Rethinking_Semantic_Segmentation_From_a_Sequence-to-Sequence_Perspective_With_Transformers_CVPR_2021_paper.pdf

0.摘要

        最近的语义分割方法采用了全卷积网络(FCN)和编码器解码器架构。编码器逐渐降低空间分辨率,并学习具有更大感受野的抽象/语义视觉概念。由于上下文建模对于分割是至关重要的,最新的研究工作将重点放在增加感受野上,通过空洞卷积或插入注意力模块来实现。然而,基于编码器-解码器的FCN架构保持不变。在本文中,我们旨在通过将语义分割视为序列到序列预测任务来提供另一种观点。具体而言,我们使用纯Transformer(即不使用卷积和分辨率降低)将图像编码为一系列补丁。通过在Transformer的每一层中建模全局上下文,这个编码器可以与简单的解码器结合,提供一个强大的分割模型,称为SEgmentation TRansformer(SETR)。大量实验证明,SETR在ADE20K(50.28% mIoU),Pascal Context(55.83% mIoU)和Cityscapes上取得了新的最佳结果。特别地,我们在高度竞争的ADE20K测试服务器排行榜上首次夺冠。

1.引言

        自从[36]的开创性工作以来,现有的语义分割模型主要基于全卷积网络(FCN)。标准的FCN语义分割模型采用编码器-解码器架构:编码器用于特征表示学习,解码器用于对编码器生成的特征表示进行像素级分类。在这两者中,特征表示学习(即编码器)被认为是最重要的模型组成部分[8,28,57,60]。编码器像大多数用于图像理解的CNN一样,由堆叠的卷积层组成。由于计算成本的考虑,特征图的分辨率会逐渐降低,因此编码器能够逐渐增大感受野来学习更抽象/语义的视觉概念。这种设计之所以受欢迎,有两个有利之处,即平移等变性和局部性。前者很好地尊重了图像处理的本质[58],从而支持模型对未见过的图像数据的泛化能力。而后者通过在空间上共享参数来控制模型的复杂性。然而,这也带来了一个基本限制,即学习长距离依赖信息,对于在非受限场景图像中进行语义分割是至关重要的[2,50],由于感受野仍然有限,这变得具有挑战性。

        为了克服上述的限制,最近引入了一些方法。其中一种方法是直接操作卷积操作。这包括使用大的卷积核大小[40],空洞卷积[8,22]和图像/特征金字塔[60]。另一种方法是将注意力模块整合到FCN架构中。这种模块旨在对特征图中的所有像素进行全局交互建模[48]。在应用于语义分割[25,29]时,常见的设计是将注意力模块与FCN架构相结合,将注意力层放在顶部无论采用哪种方法,标准的编码器-解码器FCN模型架构保持不变。最近,还尝试完全摒弃卷积,而是使用仅注意力模型[47]。然而,即使没有卷积,它们也不会改变FCN模型结构的本质:编码器对输入的空间分辨率进行下采样,生成用于区分语义类别的较低分辨率特征映射,解码器将特征表示上采样为全分辨率的分割图。

        在本文中,我们旨在重新思考语义分割模型的设计,并提出一种替代方案。具体而言,我们提出用纯Transformer [45]替代基于堆叠卷积层的编码器,该编码器逐渐降低空间分辨率,从而形成一种新的分割模型,称为SEgmentation TRansformer (SETR)。这个仅由Transformer构成的编码器将输入图像视为由学习到的patch嵌入表示的图像patch序列,并利用全局自注意力建模对序列进行转换,用于区分性特征表示学习。具体而言,我们首先将图像分解为固定大小的patch网格,形成一个patch序列。然后,对每个patch的扁平化像素向量应用线性嵌入层,得到一系列特征嵌入向量作为Transformer的输入。在编码器Transformer学习到特征之后,使用解码器恢复原始图像分辨率。关键在于,在编码器Transformer的每一层都没有降采样的空间分辨率,而是进行全局上下文建模,从而为语义分割问题提供了全新的视角。

        这种纯Transformer的设计灵感来自于它在自然语言处理(NLP

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值