0.摘要
深度神经网络(DNN)显著改进了显著目标检测的最新技术。然而,训练DNN需要昂贵的像素级注释。在本文中,我们利用图像级标签提供的重要线索来开发一种仅使用图像级标签进行显著性检测的弱监督学习方法。为了应对这一具有挑战性的任务,我们引入了前景推理网络(FIN)。在我们的训练方法的第一阶段,FIN与全卷积网络(FCN)一起进行图像级标签预测的联合训练。我们提出了全局平滑池化层,使得FCN能够为相应的物体区域分配对象类别标签,而FIN能够使用预测的显著图捕捉所有潜在的前景区域。在第二阶段,FIN使用其预测的显著图作为真实标签进行微调。为了改善真实标签的精细度,我们开发了一个迭代的条件随机场,以强制空间标签一致性,并进一步提升性能。我们的方法减轻了注释工作量,并允许使用现有的大规模训练集和图像级标签。我们的模型运行速度达到每秒60帧,优于无监督方法,并且在性能上与完全监督的对应方法相当甚至更好。
1.引言
受深度神经网络(DNN)在许多计算机视觉领域的显著成功的推动[23,14,11,47,48],近年来对使用准确的像素级注释样本训练DNN进行显著性检测[57,26,49]的兴趣急剧增加。与无监督方法[56,22]相比,从完全监督中学习的DNN更有效地捕捉到在语义上显著的前景区域,在复杂场景下产生准确的结果。鉴于DNN对数据的需求性质,它们的优越性能严重依赖于具有像素级注释的大量数据集进行训练。然而,注释工作非常繁琐,具有准确注释的训练集仍然稀缺且昂贵。
为了减轻对大规模像素级注释的需求,我们探索了使用图像级标签进行弱监督训练显著性检测器。图像级标签指示图像中是否存在对象类别,并且比像素级注释更容易收集。预测图像级标签的任务侧重于图像中的对象类别,并且不考虑对象的位置(图1左),而显著性检测旨在突出显示前景对象的全部范围,并忽略它们的类别(图1右)。这两个任务在概念上似乎不同,但彼此之间具有内在的相关性。一方面,显著性检测提供了对象候选项,可以更准确地进行类别分类。另一方面,图像级标签提供了图像中主要对象的类别信息,这些对象很可能是显著的前景。此外,最近的研究[34,58]表明,仅使用图像级标签训练的DNNs也能够提供关于对象位置的信息。因此,将图像级标签作为弱监督来训练显著性目标检测的DNNs是自然而然的想法。令人惊讶的是,这个想法在文献中很大程度上尚未被探索。
基于以上观察,我们提出了一种仅使用图像级监督进行显著性检测的新型弱监督学习方法。我们的学习方法包括两个阶段:基于图像级标签的预训练和使用估计的像素级标签进行自训练。 在第一阶段,我们使用一个深度全卷积网络(FCN)进行图像级标签预测的任务的预训练。为了使FCN具备将图像级标签与相应对象区域关联的能力,我们提出了全局平滑池化(GSP)层,将特征图的空间高响应聚合到图像级类别得分中。与全局平均池化(GAP)和全局最大池化(GMP)相比,GSP减轻了高估和低估对象区域的风险。此外,GSP采用了更通用的池化操作形式,使GAP和GMP成为其两个特殊情况。 由于我们关注通用的显著性目标检测,我们设计了一个名为Foreground Inference Net(FIN)的新网络。当与FCN共同训练用于图像级标签预测时,FIN能够推断出一个前景热图,捕捉所有潜在的与类别无关的对象区域,这对未见过的类别具有很好的泛化能力,并提供了显著性图的初始估计。
在第二阶段,自学习通过估计地面真实显著性图和使用估计的地面真实显著性图训练FIN之间进行交替。为了获得更准确的地面真实估计,我们使用迭代条件随机场(CRF)来优化FIN预测的显著性图。与传统CRF中使用固定的一元项不同,我们提出的CRF通过迭代优化一元项和预测结果来进行推理,类似于EM过程。在实践中,我们的CRF对输入噪声更加鲁棒,并且具有更高的准确性。 我们的贡献有三个方面。首先,我们提供了一种使用弱监督学习显著性检测器的新范式,它需要更少的注释工作,并且只使用图像级标签(例如ImageNet [7])即可利用现有的大规模数据集。其次,我们提出了两种新颖的网络设计,即全局平滑池化层和前景推理网络,使深度模型能够通过利用图像级标签来推断显著性图,并在测试时更好地泛化到之前未见过的类别。第三,我们提出了一种新的CRF算法,它可以对估计的地面真实进行精确的优化,从而实现更有效的网络训练。训练的DNN不需要任何后处理步骤,并且以大幅加速的速度产生了与完全监督对应物相当甚至更高的准确性。

图1.图像级标签(左侧面板)提供了主要对象的信息提示,这些对象往往是显著的前景。我们提出使用图像级标签作为弱监督来学习预测像素级显著性图(右侧面板)。
2.相关工作
完全监督的显著性检测。许多监督算法,如CRFs [32],随机森林 [17,19,30],SVMs [35],AdaBoost [60],DNNs [31,25,24]等,已成功应用于显著性检测。特别是,基于DNN的方法显著提高了性能。早期的工作 [46,57,26,4]以逐块扫描的方式使用DNN,导致了大量冗余计算。最近,基于FCN的显著性方法 [29,49]已被提出,其在准确性和速度方面都具有更有竞争力的性能。然而,训练这些模型需要大量昂贵的像素级注释。相比之下,我们的方法只依赖于图像级标签进行训练。
弱监督学习。弱监督学习在目标检测 [44]、语义分割 [37] 和边界检测 [18]等领域引起了越来越多的关注。在 [38] 中,弱监督分割被建模为多实例学习问题。通过使用GMP层选择潜在实例来训练FCN。最近,[58]利用GAP从图像标签中学习CNN进行对象定位。然而,GMP和GAP都对潜在实例进行了硬选择,并且对于弱监督学习而言是次优的。为了解决这个问题,[39]使用对数-求和-指数函数来近似最大池化,而[20]提出了一种加权排序池化层来根据排序索引聚合空间响应。我们的方法与这些工作有着相似的思路,但在两个方面有所不同。首先,这些方法旨在分割训练类别的对象,而我们旨在检测通用的显著对象,这需要在测试时对未见过的类别进行泛化,在

文章介绍了一种使用图像级标签进行显著性检测的弱监督学习方法,包括预训练和自学习两个阶段。预训练阶段,提出全局平滑池化层(GSP)和前景推理网络(FIN),以捕捉对象区域。自学习阶段,使用估计的显著图进行网络微调,通过迭代条件随机场优化预测结果。这种方法减轻了注释需求,且在性能上与完全监督方法相当或更好。
最低0.47元/天 解锁文章
660

被折叠的 条评论
为什么被折叠?



