Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers:使用 Transformer 从序列到序列的角度重新思考语义分割-CVPR2021
1.概述
标准FCN具有编码器-解码器体系结构:编码器用于特征表示学习,而解码器用于编码器生成的特征表示的像素级分类。其中,特征表示学习(即编码器)可以说是最重要的模型组件。编码器由堆叠的卷积层组成。由于对计算成本的关注,特征映射的分辨率逐渐降低,因此编码器能够通过逐渐增加的感受野学习更多抽象/语义视觉概念。这种设计之所以流行,是因为它有两个优点,即翻译的等效性和局部性。前者很好地尊重了成像过程的本质,它支持了模型对不可见图像数据的泛化能力。而后者通过跨空间共享参数来控制模型的复杂性。然而,它也提出了一个基本的限制,即学习远程依赖信息(对于无约束场景图像中的语义分割至关重要),由于仍然有限的感受野而变得具有挑战性。
扩大感受野:
- 直接操作卷积运算。 这包括较大的内核大小、空洞卷积和图像/特征金字塔。
- 将注意力模块集成到FCN体系结构中。这样一个模块旨在对特征图中所有像素的全局交互进行建模。语义分割中,一种常见的设计是将注意力模块与FCN架构相结合,注意力层位于顶部。无论采用哪种方法,标准编码器FCN模型架构都保持不变。
- 有人试图完全摆脱卷积,转而部署注意力单独模型。然而,即使没有卷积,它们也不会改变FCN模型结构的性质:编码器降低输入的空间分辨率,开发有助于区分语义类的低分辨率特征映射,解码器将特征表示增加采样为全分辨率分段映射。
我们的目的是重新思考语义分割模型的设计,并提供一个替代方案。特别是,我们建议使用纯Transformers取代基于堆叠卷积层的编码器,逐渐降低空间分辨率,从而产生一种新的分段模型,称为分段Transformers(SETR)。
此Transformers编码器将输入图像视为图像patch序列,该序列是通过学习到的嵌入patch表示的,并使用全局自注意建模对序列进行变换,以进行区分性特征表示学习。具体地说:
- 首先将图像分解为一个由固定大小的patch组成的网格,形成一系列patches。
- 将线性嵌入层应用于每个patch的平坦像素向量,然后获得一系列特征嵌入向量作为Transformers的输入。
- 给定从编码器Transformers学习的特征,然后使用解码器恢复原始图像分辨率。
关键的是,在空间分辨率上没有向下采样,但在编码器转换器的每一层都有全局上下文建模,从而为语义分割问题提供了一个全新的视角。最近,纯视觉Transformers或ViT(Vision Transformers)已证明对图像分

本文提出了一种新的语义分割模型——Segmentation Transformers (SETR),用纯Transformer替换传统FCN的编码器。SETR将图像序列化为patch,通过Transformer学习全局上下文,解决了传统方法中感受野有限的问题。三种解码器设计被评估,包括简单的上采样、渐进式上采样和多级特征聚合,SETR在多个基准上表现出色,特别是在ADE20K上取得领先成绩。
最低0.47元/天 解锁文章
1520

被折叠的 条评论
为什么被折叠?



