0.摘要
在这项工作中,我们提出了对抗互补学习(ACoL),以实现弱监督下语义感兴趣的对象的自动定位。我们首先在数学上证明了可以通过直接选择最后一个卷积层的类特定特征图来获得类定位图,这为识别对象区域提供了一种简单的方法。然后,我们提出了一个简单的网络架构,包括两个并行分类器用于对象定位。具体而言,我们利用一个分类分支在前向传递过程中动态定位一些具有区分性的对象区域。尽管它通常对目标对象的稀疏部分有响应,但这个分类器可以通过从特征图中擦除其发现的区域来驱使对应的分类器发现新的和互补的对象区域。通过这种对抗性学习,两个并行分类器被迫利用互补的对象区域进行分类,并最终共同生成完整的对象定位。ACoL的优点主要有两个:1)它可以以端到端的方式进行训练;2)动态擦除使对应的分类器更有效地发现互补的对象区域。我们通过一系列实验证明了ACoL方法的优越性。特别是,在ILSVRC数据集上的Top-1定位错误率为45.14%,达到了新的最先进水平。
1.引言
弱监督对象定位(WSOL)是指使用图像级别标签在给定图像中学习对象位置的方法。目前,WSOL引起了越来越多的关注,因为它不需要昂贵的边界框注释进行训练,与完全监督的方法相比,可以节省大量的人力成本。
仅使用图像级别的监督进行学习以定位感兴趣的对象是一项非常具有挑战性的任务。一些先驱性的工作已经提出了根据预训练的卷积分类网络生成类特定定位图的方法。例如,Zhou等人通过将一些高层次的层替换为全局平均池化层和全连接层来修改分类网络(如AlexNet和VGG-16),这可以聚合最后一个卷积层的特征以生成具有区分性的类激活图(CAM)用于定位目的。然而,我们观察到这种解决方案存在一些关键问题,主要包括:1)过度依赖类别间区分性特征进行图像分类;2)未能在图像中密集地定位目标对象的完整区域。这两个问题主要是因为分类网络倾向于从最具区分性的部分识别模式,这不可避免地导致了第二个问题。例如,给定包含猫的图像,网络可以通过识别头部而无视其他部分(如身体和腿)来识别它。
为解决这些问题,Wei等人提出了一种对抗擦除(AE)方法,通过在部分擦除了具有区分性目标区域的图像上训练额外的分类网络,来发现完整的对象区域。然而,AE的一个主要缺点是需要训练多个独立的分类网络来获得完整的对象区域,这会消耗更多的训练时间和计算资源。最近,Singh等人通过随机隐藏输入图像的补丁来增强CAM,以迫使网络寻找其他区分性部分。然而,随机隐藏补丁而没有任何高级指导是低效的,并且不能保证网络总是能发现新的对象区域。
在本文中,我们提出了一种新颖的对抗互补学习(ACoL)方法,通过端到端的弱监督训练来发现感兴趣的整个对象。ACoL的关键思想是通过受到AE启发的两个对抗分类器来找到互补的对象区域。具体而言,首先利用一个分类器来识别最具区分性的区域,并引导中间特征图上的擦除操作。然后,我们将被擦除的特征输入到其对应的分类器中,以发现新的和互补的与对象相关的区域。这样的策略驱使这两个分类器挖掘互补的对象区域,并最终获得所期望的完整对象定位。为了方便进行ACoL的端到端训练,我们在数学上证明了可以通过直接从最后一个卷积层的类别特定特征图中选择来获得对象定位图,而不是使用[48]中的后推断方式。因此,在训练前向传递过程中,可以方便地根据在线推断的对象定位图识别出有区分性的对象区域。
我们的方法相比于AE [39]具有多个吸引人的优势。首先,AE独立地训练三个网络进行对抗擦除。ACoL将这两个对抗分支合并到一个单一的网络中进行联合训练。所提出的联合训练框架更能够整合这两个分支之间的互补信息。其次,AE采用递归方法生成定位图,并且需要多次进行网络前向传递。相反,我们的方法只需一次前向传递就可以生成定位图。这个优势极大地提高了效率,并且使我们的方法更容易实现。第三,AE直接采用CAM [48]生成定位图。因此,AE的生成定位图需要经过两个步骤。与之不同的是,我们的方法通过选择与groundtruth最匹配的特征图作为定位图,只需一步就可以生成定位图。我们还提供了详细的证明,理论上证明了我们的方法更简单、更高效,但是产生的结果与CAM [48]相同(见第3.1节)。
ACoL的过程如图1所示,其中一张图像被处理以估计马的区域。我们可以观察到,分类器A利用了一些有区分性的区域(马的头部和后腿)进行识别。通过在特征图中擦除这些有区分性的区域,分类器B被引导使用新的和互补的对象区域的特征(马的前腿)进行分类。最后,通过融合两个分支的对象定位图,得到完整的目标区域。为了验证ACoL的有效性,我们进行了一系列的对象定位实验,使用从生成的定位图推断出的边界框。
总结起来,我们的主要贡献有三个:
- 我们在前向传递过程中提供了产生类别特定特征图的理论支持,这样对象区域可以在方便的方式下简单地被识别出来,这有助于未来相关研究的发展。
- 我们提出了一种新颖的ACoL方法,在弱监督的情况下通过两个对抗分类器高效地挖掘不同的区分性区域,从而发现对象的完整目标区域进行定位。
- 在弱监督设置下,这项工作在ILSVRC 2016数据集上取得了当前最先进的结果,Top-1误差率为45.14%,Top-5误差率为30.03%。
ACoL:弱监督下的对抗互补学习方法

本文提出了对抗互补学习(ACoL)方法,用于弱监督对象定位。ACoL通过两个并行分类器发现互补的对象区域,解决了传统方法过度依赖区分性特征和无法完整定位目标的问题。这种方法以端到端的方式训练,无需多次前向传递或独立网络,提高了效率和定位准确性。在ILSVRC数据集上,ACoL达到了新的最先进水平,Top-1定位错误率为45.14%。
最低0.47元/天 解锁文章
1503

被折叠的 条评论
为什么被折叠?



