二十三章:抗对抗性操纵的弱监督和半监督语义分割的属性解释

AdvCAM:利用对抗操作提升弱监督语义分割性能
文章提出了一种名为AdvCAM的技术,通过对抗性操作增加分类得分,扩大目标对象在属性图中的识别区域。这种方法针对弱监督语义分割,通过对抗攀升和正则化过程生成更精确的伪标签,从而提高分割性能。在PASCALVOC2012基准上,AdvCAM在弱监督和半监督设置下达到了新的最优性能。

0.摘要

        弱监督语义分割从分类器中生成像素级定位,但往往会限制其关注目标对象的一个小的区域。AdvCAM是一种图像的属性图,通过增加分类分数来进行操作。这种操作以反对抗的方式实现,沿着像素梯度的相反方向扰动图像。它迫使最初被认为不具有区分度的区域参与后续的分类,并产生逐步识别目标对象更多区域的属性图。此外,我们引入了一种新的正则化过程,抑制了与目标对象无关的区域的错误归因,并限制了已经具有高分数的区域的归因。在PASCAL VOC 2012测试图像上,我们分别实现了弱监督和半监督语义分割的mIoUs分别为68.0和76.9,这代表了新的最先进水平。代码可在以下链接找到:https://github.com/jbeomlee93/AdvCAM。

1.引言

        语义分割是将语义标签分配给图像中的每个像素的过程。在图像识别和场景理解中,它是一项重要的任务。深度神经网络(DNNs)在语义分割方面取得了巨大的进展[8,22],但它们需要大量使用像素级标签进行注释的训练图像。准备这样的训练数据集非常昂贵:对于包含平均2.8个对象的图像,每张图像的像素级注释需要约4分钟[4],而对于描绘复杂场景的单个大型(2048×1024)图像,像素级注释需要超过90分钟[9]。

        对于像素级注释的需求可以通过弱监督学习来解决,其中一个分割网络在具有比像素级标签更便宜获取的较少详细注释的图像上进行训练。弱监督方法可以使用涂鸦[54]、点[4]、边界框[26,51]和类别标签[2,6,29,48]作为注释。使用类别标签对图像进行标注大约需要20秒[4],使得类别标签成为最便宜的选项。此外,许多公共数据集已经使用类别标签进行了注释[10,12],自动化的网络搜索也可以提供带有类别标签的图像[20,30,47],尽管这些标签的准确性可能较低。这些考虑使得类别标签成为最受欢迎的弱监督形式。

        大多数使用类别标签的弱监督分割方法依赖于从训练好的分类器中获得的属性图[46,64]。这样的属性图标识了分类器所关注的图像区域。然而,这些重要或有区分度的区域相对较小,大多数属性图并不代表目标对象所占据的整个区域,这使得这些属性图不适合用于训练语义分割网络。因此,许多研究人员尝试通过操作图像[33,50,57]或特征图[21,29,63]来扩展区域,以覆盖目标对象的更多部分。

        一种常用的操作方法是擦除:强制分类器从已删除的有区分度区域中寻找目标对象的新区域。擦除是有效的,但它需要修改网络,通常是通过添加额外的层[21,63]或额外的训练步骤[57]。另一个困难是为迭代擦除提供可靠的终止条件;对图像的有区分度区域进行擦除可能导致DNN对该图像进行错误分类。如果从已擦除有区分度区域的图像越过决策边界,如图1(a)所示,可能会生成错误的属性图。另一种操作方法是随机扰动,如图1(b)所示。FickleNet [29]通过对DNN的特征图应用随机丢弃,将它们聚合成一个统一的属性图,从而使属性图多样化。

        我们提出了一种新的操作方法,用于扩展目标对象的有区分度区域。我们的方法基于对抗攻击[16,28],但目的是良性的。对抗攻击寻找一个图像的微小扰动,将其推向决策边界,以改变分类结果。相反,我们的方法以反对抗攻击的方式进行操作,旨在找到一种扰动,将操纵的图像推离决策边界,如图1(c)所示。这种操作是通过对抗攀升实现的,即通过沿着像素梯度扰动图像,增加目标类别的分类得分。结果是非有区分度区域,尽管与该类别相关,但逐渐参与了分类过程,使得操纵图像的CAM识别出更多的对象区域。图1(d)展示了通过迭代应用这种操作技术获得的CAM示例。

        沿着梯度上升确保了分类得分的增加,但是重复上升可能会导致不相关的区域(如背景的某些部分或其他对象的区域)一起被激活,或者目标对象的某些部分的属性分数被大幅增加。我们可以通过引入正则化项来解决这些问题,抑制其他类别的得分,并限制已经具有高分数的区域的属性分数。通过以这种方式进行迭代操作的图像获得的属性图可以用作伪标签来以弱监督和半监督的方式训练语义分割网络。

        我们的方法是对训练好的分类器的事后分析,可以在不修改现有方法的情况下改善性能,从而在弱监督和半监督语义分割中在PASCAL VOC 2012基准测试中取得新的最先进性能。

本文的主要贡献有三点:

  • 我们提出了AdvCAM,一种通过操纵图像来增加分类得分的属性图,使其能够识别更多的目标区域。
  • 我们经验证明,我们的方法在不修改或重新训练网络的情况下,改善了几种弱监督语义分割方法的性能。
  • 我们的技术在Pascal VOC 2012基准测试中比现有方法在弱监督和半监督语义分割方面表现出显著更好的性能。

图1:弱监督语义分割图像操作方法的概念描述:(a)擦除[21,57,63];(b)FickleNet [29];(c)AdvCAM;(d)通过迭代操纵图像获得的连续属性图的示例。

2.相关工作

2.1.弱监督学习

        现有的弱监督语义分割方法旨在通过获取一个改进的初始种子,其中包含了目标对象所占据的区域的良好近似,然后扩大该区域,以便更多地识别出对象。

获取高质量的种子:已经提出了几种方法来改进从分类器中获得的初始种子的质量。Wang等人[56]在分类器训练过程中使

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值