三十五章:Weakly Supervised Semantic Segmentation by Pixel-to-Prototype Contrast ——弱监督语义分割通过像素到原型对比

本文提出了一种弱监督像素到原型对比学习方法,旨在缩小基于图像级弱监督的语义分割(WSSS)中的监督差距。方法通过跨视图和单视图内的对比学习,提高CAMs质量和分割性能。实验表明,该方法能显著提升现有基线模型的性能,特别是在PASCALVOC2012数据集上,实现了分割mIoU的显著提高。

0.摘要

        尽管基于图像级弱监督的语义分割(WSSS)在Class Activation Maps(CAMs)作为基石的情况下取得了巨大的进展,但分类和分割之间的大量监督差距仍然阻碍了模型生成更完整和精确的伪掩码用于分割。在本研究中,我们提出了一种弱监督的像素到原型对比方法,可以提供像素级的监督信号来缩小这一差距。我们的方法受到两个直观先验的指导,通过在不同视图和单个图像视图内执行,旨在施加跨视图特征语义一致性正则化,并促进特征空间内(类间)紧凑性(分散性)。我们的方法可以无缝地集成到现有的WSSS模型中,无需对基础网络进行任何修改,并且不会增加任何额外的推理负担。大量实验证明,我们的方法始终显著改善了两个强基线,证明了其有效性。具体而言,在SEAM基础上,我们将PASCAL VOC 2012的初始种子mIoU从55.4%提高到61.5%。此外,借助我们的方法,我们将EPS的分割mIoU从70.8%提高到73.6%,达到了新的最先进水平。

1.引言

        受益于大规模的像素级注释,语义分割[38]在近年来取得了显著的进展。然而,获取如此精确的像素级注释是费时费力的。为了减轻这种负担,许多工作借助弱监督语义分割(WSSS),旨在从弱标签(如图像标签[2,21,22,27,32,53,62]、边界框[39]、点[4]和涂鸦[47])中学习分割模型。其中,仅需要图像标签的图像级WSSS在计算机视觉社区中得到了广泛研究。

        图像级WSSS是一项具有挑战性的任务,因为图像标签仅指示对象类别的存在,并不提供对语义分割至关重要的准确对象位置的信息。为了解决这个问题,广泛采用了Class Activation Maps (CAMs)[67],它们可以确定图像的哪些部分对分类起到最大的贡献,从而粗略估计目标对象的区域。这些区域,也被称为种子,用于为训练分割模型生成伪地面真实值。然而,CAMs只覆盖对象的部分区域,导致监督不准确且不完整。这个问题源于分类和分割任务之间的监督差距。具体而言,受图像标签监督的分类网络倾向于将注意力集中在对象的最具区分性的区域,以实现更好的图像标签分类性能,而分割任务需要像素级的监督来为整个图像中的每个像素分配一个类别。缩小监督差距对于WSSS至关重要,这激励我们探索与图像标签互补的像素级监督信号。

        受到引人注目的对比自监督算法[20]的启发,我们针对WSSS开发了一种新颖的弱监督像素到原型对比学习方法,可以提供像素级监督,改善CAMs的质量和分割性能。我们的方法基于两个隐式但有价值的先验:

        (i)特征在图像的不同视图之间应该保持语义一致性;

        (ii)具有相同标签的像素在特征空间中应该具有相似的表示,反之亦然

        在这些先验指导下,像素到原型对比分别在不同视图和每个图像的单个视图中执行,引导我们进行跨视图对比和视图内对比。

        我们的方法通过基于原型的度量学习方法,在一个统一的像素到原型对比学习公式的基础上进行实例化,来塑造像素嵌入空间。核心思想是将像素拉到它们的正原型附近,并将它们推离它们的负原型,以学习具有区分性的密集视觉表示。在我们的方法中,原型被定义为一个类别的代表性嵌入。它是通过CAMs中具有顶部激活的像素级特征嵌入估计得到的。在学习过程中,每个原型的极性由当前小批量中与之关联的每个像素的伪标签确定。然而,在从CAMs生成伪掩码时,出现了一个棘手的问题:过度激活和欠激活的区域可能会破坏对比学习,特别是视图内对比。为了缓解这个问题,我们采取了两个策略:半硬原型挖掘和硬像素采样,以减少不准确的对比,并更好地利用困难样本。

        最近,王等人[53]提出了SEAM来缓解监督差距问题,通过对CAMs施加等变性约束,强制CAMs具有与输入图像相同的空间变换。我们的方法有两个主要区别。首先,我们的方法对像素级特征进行正则化,强制像素嵌入与正原型相似而与负原型不相似,而SEAM计算同一图像的不同视图的CAMs之间的一致性损失。此外,我们的工作同时考虑了跨视图和视图内的正则化,而SEAM只集成了视图间的等变正则化。

        我们的方法可以无缝地集成到现有的WSSS模型中,无需对基础网络进行任何更改。它只需要在训练过程中添加额外的公共投影器,并且不会增加额外的推理负担。实验证明,我们的方法大幅改进了最先进的模型。如图1所示,我们的方法在初始种子质量和分割性能方面一致地改进了两个强基线模型。我们还通过广泛的消融研究验证了我们的方法,在其中发现每个组件都对性能改进做出了重要贡献。

总结起来,我们的主要贡献如下:

  • 我们提出了一种弱监督的像素到原型对比学习方法,用于WSSS。在WSSS的设置下,它使像素能够从每个类别的可靠原型获得监督,从而大大缩小了分类和分割之间的差距。
  • 我们提出在图像的单个视图内部和不同视图之间执行像素到原型对比学习,这显著提高了CAMs的质量和随后的分割掩码。
  • 我们的方法取得了令人印象深刻的结果,在大幅超越基线模型的同时,在标准基准测试中实现了最佳性能。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值