无需手动分割训练数据学习图像分割
语义分割任务旨在自动标记数字图像中每个像素所属的类别(如人、猫、飞机、桌子等),在基于内容的图像检索、医学成像和物体识别等领域有广泛应用。
基于机器学习的语义分割系统通常需要在对象边界被精心手动勾勒的图像上进行训练,这是一个耗时的操作。相比之下,物体检测系统可以在物体被矩形框(称为边界框)标注的图像上进行训练。对于人类标注员来说,手动分割一张图像平均耗时是标注边界框的35倍。
在某计算机视觉会议上发表的一篇论文中,我们描述了一个名为Box2Seg的新系统。该系统仅使用边界框训练数据来学习分割图像,这是弱监督学习的一个例子。
在实验中,我们的系统在平均交并比这一衡量系统分割与手动分割吻合度的指标上,比之前的弱监督系统提升了2%。我们的系统性能也与一个先在通用图像数据上预训练、再在全分割数据上训练的系统相当。
此外,当我们使用弱监督方法训练一个系统,然后在全分割数据上进行微调时,其性能比在通用图像数据上预训练的系统提升了16%。这表明,即使有分割训练数据可用,先用我们的弱监督方法进行预训练仍有优势。
将边界框视为噪声标签
我们的方法是将边界框视为带有噪声的标签。我们将边界框内的每个像素都视为已被标记为我们要寻找边界的目标对象的一部分;然而,其中一些像素被错误地标记了。我们将框外的所有像素视为正确标记的背景像素。
在训练期间,输入数据会通过三个卷积神经网络:一个对象分割网络和两个辅助网络。在系统运行时,我们会丢弃辅助网络,因此它们不会增加部署系统的复杂性。
其中一个辅助网络对图像中的像素进行两两比较,试图学习区分背景和前景的通用方法。直观地说,它寻找的是边界框内与框外正确标记的背景像素相似的像素,以及框内彼此不相似的像素簇。我们称该网络为嵌入网络,因为它学习像素的向量表示(嵌入),捕获的正是对区分背景和前景有用的那些属性。
我们使用一种名为GrabCut的标准分割算法提供的相对粗糙的分割来预训练嵌入网络。在训练期间,嵌入网络的输出为对象分割网络提供监督信号;也就是说,我们评估嵌入网络性能的标准之一是其输出与嵌入网络输出的一致性。
另一个辅助网络是标签特定注意力网络。它学习识别在具有相同标签的边界框内像素间频繁重现的视觉属性。可以将其视为一个物体检测器,其输出不是物体标签,而是突出显示特定物体类别特征像素簇的图像图。
标签特定注意力网络仅在训练期间对见过的物体类别有用;对于未训练过的物体类别,其输出可能产生反效果。但在训练期间,它与嵌入网络一样,提供了有用的监督信号,可以帮助对象分割网络学习执行更通用的分割。
实验验证
在使用标准基准数据集的实验中,我们发现,仅使用边界框训练数据,Box2Seg的性能优于其他12个在全分割训练数据上训练的系统。当使用Box2Seg训练的网络在全分割数据上进行微调后,性能提升更为显著。这表明,当无法获得全分割训练数据时,弱监督训练对象分割可能非常有用——甚至在可以获得时也是如此。
研究领域
计算机视觉
标签
图像分割、弱监督学习、欧洲计算机视觉会议
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
388

被折叠的 条评论
为什么被折叠?



