语义分割CVPR2021-Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transform

原创

已于 2022-02-18 15:53:53 修改 · 5k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #深度学习 #pytorch

于 2021-11-26 22:06:04 首次发布

本文提出了一种新的语义分割模型——Segmentation Transformers (SETR)，用纯Transformer替换传统FCN的编码器。SETR将图像序列化为patch，通过Transformer学习全局上下文，解决了传统方法中感受野有限的问题。三种解码器设计被评估，包括简单的上采样、渐进式上采样和多级特征聚合，SETR在多个基准上表现出色，特别是在ADE20K上取得领先成绩。

Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers:使用 Transformer 从序列到序列的角度重新思考语义分割-CVPR2021

1.概述
2.方法

开源代码
 论文地址

1.概述

标准FCN具有编码器-解码器体系结构：编码器用于特征表示学习，而解码器用于编码器生成的特征表示的像素级分类。其中，特征表示学习（即编码器）可以说是最重要的模型组件。编码器由堆叠的卷积层组成。由于对计算成本的关注，特征映射的分辨率逐渐降低，因此编码器能够通过逐渐增加的感受野学习更多抽象/语义视觉概念。这种设计之所以流行，是因为它有两个优点，即翻译的等效性和局部性。前者很好地尊重了成像过程的本质，它支持了模型对不可见图像数据的泛化能力。而后者通过跨空间共享参数来控制模型的复杂性。然而，它也提出了一个基本的限制，即学习远程依赖信息（对于无约束场景图像中的语义分割至关重要），由于仍然有限的感受野而变得具有挑战性。
扩大感受野：

直接操作卷积运算。 这包括较大的内核大小、空洞卷积和图像/特征金字塔。
将注意力模块集成到FCN体系结构中。这样一个模块旨在对特征图中所有像素的全局交互进行建模。语义分割中，一种常见的设计是将注意力模块与FCN架构相结合，注意力层位于顶部。无论采用哪种方法，标准编码器FCN模型架构都保持不变。
有人试图完全摆脱卷积，转而部署注意力单独模型。然而，即使没有卷积，它们也不会改变FCN模型结构的性质：编码器降低输入的空间分辨率，开发有助于区分语义类的低分辨率特征映射，解码器将特征表示增加采样为全分辨率分段映射。

我们的目的是重新思考语义分割模型的设计，并提供一个替代方案。特别是，我们建议使用纯Transformers取代基于堆叠卷积层的编码器，逐渐降低空间分辨率，从而产生一种新的分段模型，称为分段Transformers（SETR）。
此Transformers编码器将输入图像视为图像patch序列，该序列是通过学习到的嵌入patch表示的，并使用全局自注意建模对序列进行变换，以进行区分性特征表示学习。具体地说：

首先将图像分解为一个由固定大小的patch组成的网格，形成一系列patches。
将线性嵌入层应用于每个patch的平坦像素向量，然后获得一系列特征嵌入向量作为Transformers的输入。
给定从编码器Transformers学习的特征，然后使用解码器恢复原始图像分辨率。
关键的是，在空间分辨率上没有向下采样，但在编码器转换器的每一层都有全局上下文建模，从而为语义分割问题提供了一个全新的视角。最近，纯视觉Transformers或ViT(Vision Transformers)已证明对图像分