迈向分割大一统 | OneFormer:一个Transformer统治通用图像分割!

OneFormer是一种基于Transformer的多任务图像分割框架,采用任务调节联合训练策略,仅需一次训练即可实现出色的语义、实例及全景分割效果。

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【分割】技术交流群

后台回复【OneFormer】获取本文论文和代码!!!

摘要

通用图像分割不是一个新概念。过去几十年中统一图像分割的尝试包括场景解析、全景分割,以及最近的新全景架构。然而,这样的全景架构并没有真正统一图像分割,因为它们需要在语义、实例或全景分割上单独训练,以获得最佳性能。理想情况下,真正通用的框架应该只训练一次,并在所有三个图像分割任务中实现SOTA性能。为此,论文提出了OneFormer!!!这是一个通用的图像分割框架,它将分割与一次多任务训练设计相结合。论文首先提出了一种基于任务的联合训练策略,该策略能够在单个多任务训练过程中对每个领域的GT(语义、实例和全景分割)进行训练。其次引入了一个任务token,以在手头的任务上调整模型,使OneFormer的任务是动态的,以支持多任务训练和推理。第三,论文建议在训练过程中使用query-text对比损失来建立更好的任务间和类间区分。值得注意的是,本文的单一OneFormer模型在ADE20k、CityScapes和COCO上的所有三个细分任务中都优于专门的Mask2Former模型,尽管后者使用三倍的资源分别对三个任务中的每一个进行了训练。使用新的ConvNeXt和DiNAT主干,论文观察到了更多的性能改进。我们认为OneFormer是使图像分割更加普遍和流行的重要一步!!!YYDS!

7afaf15dc7d2c1ea8778cebc4894e7a6.png

本文的主要贡献如下:

  • 论文提出了OneFormer,这是第一个基于transformer的多任务通用图像分割框架,该框架只需要使用单个通用架构、单个模型和单个数据集进行一次训练,就可以在语义、实例和全景分割任务上胜过现有框架,尽管后者需要使用多次资源在每个任务上单独训练;

  • OneFormer使用task-conditioned联合训练策略,通过从全景标注中生成所有标签来统一采样不同的GT域(语义、实例或全景),以训练其多任务模型。因此,OneFormer实际上实现了全景分割的原始统一目标[29];

  • 论文通过对三个主要基准的广泛实验来验证OneFormer:ADE20K[15]、Cityscape[14]和COCO[34]。与使用标准Swin-L[38]主干的方法相比,OneFormer在所有三个分割任务上都取得了新SOTA!并使用新的ConvNeXt[39]和DiNAT[21]主干提升了更多性能。

相关工作

图像分割

图像分割是图像处理和计算机视觉中最基本的任务之一。传统的工作通常使用专门的网络架构来处理三种图像分割任务之一(图1a)。

语义分割:语义分割长期以来一直作为一个像素分类问题使用CNN解决[6,7,10,40]。最近的工作[26,27,44,56]展示了基于transformer的方法在语义分割中的成功,继其在语言和视觉中的成功[3,49]。其中,MaskFormer[13]在早期工作[4,16,20]之后,通过使用带有object query的transformer解码器[3],将语义分割视为mask分类问题。论文还将语义分割公式化为mask分类问题。

实例分割:传统的实例分割方法[2,5,23]也被公式化为mask分类器,其预测二进制mask和每个mask的类标签。论文还将实例分割公式化为mask分类问题。

全景分割:泛视觉分割[29]是为了统一实例和语义分割而提出的。该范围内最早的架构之一是Panoptic FPN[28],它引入了单独的实例和语义任务分支。随后,基于transformer的架构显著提高了性能[12,13,5,51,59,60]。尽管到目前为止取得了进展,但全景分割模型在性能上仍落后于单个实例和语义分割模型,因此无法充分发挥其统一潜力。受此启发,论文设计了只使用全景标注的OneFormer。

通用图像分割

通用图像分割

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值