这篇论文是码隆科技发表在ICCV 2019的论文,这一研究致力于在仅仅给定图像级别标签的情况下精确地检测与分割物体实例。因为手工标注大量训练数据代价高昂,与监督学习、半监督学习等方式相比,它是更适用于现实应用的技术。与以前那些包含多个离线模块的方法不同的是,本篇论文提出了序列化标签传播与增强网络(缩写为 Label-PEnet)。Label-PEnet 基于一种由粗到细的方式,可以递进地将图像级别的标签转化成像素级标签,极大程度地提升了图像数据在工业场景中的应用效率。
Introduction
目标是什么?
Label-PENet的目标是通过弱监督的方式,在仅仅提供图像级标签的状况下,实现state-of-art的对象分割,工作的整体思路是通过一系列级联的模块实现图像级标签向像素级标签的平滑过渡,与粗到细。
贡献总结~
这项工作中,通过四个级联的模块,包括:(1)多标签分类模块、(2)对象检测模块、(3)实例细化模块、(4)实例分割模块,它们依次级联,对物体外观进行反复的挖掘、总结和校正。采用了两阶段的训练过程,以有效的训练了Label-PEnet。
第一,提出了用于弱监督实例分割的序列化标签传播和增强网络(Label- penet)。整个的框架由四个级联的模块组成,这些模块对物体的外观进行重复的挖掘、总结和校正。为有效地训练Label-PEnet,提出了两阶段训练方案。这是利用CNNs从图像级到像素级识别目标的重要一步,从而提高弱监督实例分割的性能。
第二,提出一个提议校准模块来揭示CNNs的分类过程,然后从图像级和对象级监督中挖掘像素级标签。在这个模块中,探索了自顶向下和自底向上的方法,并将它们结合起来以提高识别目标像素的准确性。
第三,为了验证所提出的Label- PEnet的有效性,我们在标准基准上进行了实验:PASCAL VOC 2007和 PASCAL VOC 2012。实验结果表明,Label- PEnet的性能明显优于现有的方法,甚至可以与完全监督的方法相媲美。
Preliminary and Overview
给定一个图像级标签 y I = [ y 1 , y 2 , . . . , y C ] T y_I=[y^1,y^2,...,y^C]^T yI=[y1,y2,...,yC]T关联的图像 I I I,我们的目标是对于每一个实例分割,去估计像素级的标签 Y I = [ y 1 , y 2 , . . . , y P ] T Y_I=[y_1,y_2,...,y_P]^T YI=[y1,y2,...,yP]T, C C C是对象类别的数量, P P P是 I I I的像素个数, y l y^l yl是一个二进制值,其中 y l = 1 y^l=1 yl=1表示图像 I I I包含着 l − t h l-th l−th对象类别,反之, y l = 0 y^l=0 yl=0。像素p的标签由c维的二进制向量 y p y_p yp表示。这是关于文章的相关符号含义的说明。
整个的网络如下图Fig.1所示:
网络的核心:级联模块
Multi-Label Classification Module. 使用图像级类别标签,通过选择性搜索生成一组对象建议 R = ( R 1 , R 2 , . . . , R n ) R=(R_1,R_2,...,R_n) R=(R1,R2,...,Rn),然后将这些候选对象作为输入,输入到多标签分类模块当中,以更高的置信度收集建议,并学习去识别在分类任务中起关键作用的像素。
对于一个 W × H W\times H W×H的图像 I I I,用一个步长为 λ s \lambda_s λs</