0.摘要
图像级弱监督语义分割是一个具有挑战性的问题,近年来得到了深入研究。大多数先进的解决方案利用类激活图(CAM)。然而,由于全监督和弱监督之间存在差距,CAM几乎无法用作对象掩码。在本文中,我们提出了一种自监督的等变注意机制(SEAM),以发现额外的监督信息并缩小差距。我们的方法基于这样一个观察结果:等变性是完全监督语义分割中的一个隐含约束,其像素级标签在数据增强期间与输入图像进行相同的空间变换。然而,这个约束在通过图像级监督训练的CAM上丢失了。因此,我们提出了对来自不同变换图像的预测CAM进行一致性正则化,为网络学习提供自监督。此外,我们提出了一个像素相关模块(PCM),它利用上下文外观信息,并通过其相似的邻居对当前像素的预测进行细化,进一步改善CAM的一致性。在PASCAL VOC 2012数据集上进行了大量实验证明我们的方法在相同级别的监督下优于现有的最先进方法。代码已在网上发布。
1.引言
语义分割是一项基础的计算机视觉任务,旨在对图像进行像素级别的分类预测。近年来,由于深度学习研究的蓬勃发展,语义分割模型的性能取得了巨大的进步[6,23,38],推动了许多实际应用,如自动驾驶和医学图像分析。然而,与其他任务(如分类和检测)相比,语义分割需要收集耗时且昂贵的像素级别的类别标签。最近,许多工作致力于弱监督语义分割(WSSS),利用弱监督方法,如图像级别的分类标签、草图和边界框,试图达到与全监督方法相当的分割性能。本文重点研究通过图像级别的分类标签进行语义分割。
据我们所知,大多数先进的弱监督语义分割方法都基于类激活图(CAM)[39],这是一种通过图像分类标签来定位对象的有效方法。然而,CAM通常只覆盖对象的最具区分性的部分,并且在背景区域错误地激活,可以分别总结为欠激活和过激活。此外,当通过仿射变换对相同的输入图像进行增强时,生成的CAMs不一致。如图1所示,对相同的输入图像应用不同的缩放变换会导致生成的CAMs存在显著的不一致性。这些现象的根本原因来自于全监督和弱监督语义分割之间的监督差距。
本文提出了一种自监督的等变注意机制(SEAM),以缩小上述监督差距。SEAM通过对来自不同变换图像的CAMs进行一致性正则化,为网络学习提供自监督。为了进一步提高网络预测的一致性,SEAM引入了像素相关模块(PCM),它捕捉每个像素的上下文外观信息,并通过学习到的亲和性注意力图修正原始的CAMs。SEAM是通过具有等变交叉正则化(ECR)损失的孪生网络实现的,该损失在不同的分支上对原始的CAMs和修正的CAMs进行正则化。图1显示,我们的CAMs在各种变换的输入图像上都是一致的,并且比基线方法具有更少的过激活和欠激活区域。广泛的实验证明了我们方法的优越性,提供了定量和定性的结果。
总结起来,我们的主要贡献如下:
- 我们提出了一种自监督的等变注意机制(SEAM),将等变正则化与像素相关模块(PCM)结合起来,以缩小全监督和弱监督语义分割之间的监督差距。
- 我们设计了具有等变交叉正则化(ECR)损失的孪生网络结构,有效地将PCM和自监督耦合起来,生成既有较少过激活又有较少欠激活区域的CAMs。
- 在PASCAL VOC 2012数据集上的实验证明,我们的算法仅使用图像级别注释就实现了最先进的性能。

图1.不同尺度输入图像生成的CAMs的比较。(a)传统的CAMs。(b)我们的SEAM预测的CAMs,它们在重新缩放时更加一致。
2.相关工作
近年来,深度学习的发展在全监督语义分割方面取得了一系列突破[6,11,23,37,38]。在本节中,我们介绍一些工作,包括弱监督语义分割和自监督学习。
2.1.弱监督语义分割
与全监督学习相比,弱监督语义分割(WSSS)使用弱标签来指导网络训练,例如边界框[7,18]、涂鸦[22,30]和图像级别分类标签[19,25,27]。一些先进的研究利用图像级别的分类标签来训练模型。其中大多数方法通过优化分类网络生成的类激活图(CAM)[39]来逼近分割掩码。SEC [19]提出了种子、扩展和约束三个原则来优化CAMs,这个方法被许多其他研究所采用。对抗擦除[15,32]是一种流行的CAM扩展方法,它擦除CAM中最具区分性的部分,引导网络从其他区域学习分类特征并扩展激活。AffinityNet [2]训练另一个网络来学习像素之间的相似性,生成一个过渡矩阵,并多次与CAM相乘以调整其激活范围。IRNet [1]从边界激活图生成过渡矩阵,并将该方法扩展到弱监督实例分割。此外,一些研究尝试在WSSS框架中聚合自注意力模块[29,31],例如CIAN [10]提出了跨图像注意力模块,通过显著性图的指导,从包含相同类别对象的两个不同图像中学习激活图。
2.2.自监督学习
自监督学习方法不同于使用大量标注数据来训练网络,它旨在设计预训练任务以生成无需额外手工注释的标签。有许多经典的自监督预训练任务,例如相对位置预测[9]、空间变换预测[12]、图像修复[26]和图像着色[20]。在某种程度上,生成对抗网络[13]也可以被视为一种自监督学习方法,鉴别器的真实性标签不需要手动注释。预训练任务生成的标签为网络提供了自我监督,使其能够学习更强大的特征表示。自监督学习所学到的特征在某些任务上可以替代ImageNet [8]预训练的特征,例如目标检测[9]和局部分割[17]。考虑到全监督和弱监督语义分割之间存在较大的监督差距,我们的直觉是应该寻求额外的监督来缩小这一差距。由于图像级别的分类标签对于网络学习适应对象边界的分割掩码来说过于弱,我们设计了使用理想分割函数的等变性作为预训练任务,为只有图像级别注释的网

文章提出了一种名为SEAM的自监督等变注意机制,用于弱监督语义分割。SEAM通过一致性正则化和像素相关模块改善类激活图(CAM),缩小全监督和弱监督之间的差距。在PASCALVOC2012数据集上,SEAM在相同级别的监督下超越了现有方法,展示了更好的性能。
最低0.47元/天 解锁文章
1408

被折叠的 条评论
为什么被折叠?



