本文将语义分割视为序列到序列的预测任务,在ADE20K上排名第一!表现SOTA!性能优于OCNet、GCNet等和Axial-DeepLab-XL网络,代码即将开源!
PS:目前看来,目标检测、实例分割、语义分割主流CV方向均被Transformer"攻克"了
注:文末附【语义分割】和【Transformer】交流群
SETR
Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers
- 作者单位:复旦, 牛津大学, 萨里大学, 腾讯优图, Facebook
- 主页:https://fudan-zvg.github.io/SETR/
- 代码:https://github.com/fudan-zvg/SETR
- 论文:https://arxiv.org/abs/2012.15840
最新的语义分割方法采用具有编码器-解码器体系结构的全卷积网络(FCN)。编码器逐渐降低空间分辨率,并通过更大的感受野学习更多的抽象/语义视觉概念。由于上下文建模对于分割至关重要,因此最新的工作集中在通过扩张/空洞卷积或插入注意力模块来增加感受野。但是,基于编码器-解码器的FCN体系结构保持不变。
在本文中,我们旨在通过将语义分割视为序列到序列的预测任务来提供替代视角。具体来说,我们部署一个纯 transformer&#