第三章：Seed,Expand and Constrain:——种子、扩展和约束：弱监督图像分割的三个原则

原创

已于 2023-07-27 09:40:52 修改 · 711 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #神经网络 #机器学习 #深度学习 #transformer

于 2023-07-26 14:03:38 首次发布

文章提出了一种新的复合损失函数用于弱监督图像分割，该函数包含种子损失、扩展损失和边界约束损失，以改善仅使用图像级标签训练的深度卷积神经网络的分割性能。在PASCALVOC2012数据集上的实验表明，这种方法在分割质量上显著优于先前技术。

0.摘要

我们引入了一种新的损失函数，用于基于三个指导原则进行弱监督训练的语义图像分割模型：使用弱定位线索进行种子标记，根据图像中可能出现的类别信息扩展对象，将分割结果约束在物体边界上。我们通过实验证明，使用所提出的损失函数训练深度卷积神经网络可以在具有挑战性的PASCAL VOC 2012数据集上获得比先前最先进方法更好的分割结果。此外，我们通过详细的实验研究揭示了我们方法的工作机制，说明了所提出的损失函数中每个项及其组合对分割质量的影响。

关键词：弱监督图像分割·深度学习

1.引言

计算机视觉研究近年来取得了巨大的进展。许多具有挑战性的视觉任务现在可以获得高精度的解决，前提是有足够多的标注数据用于训练。然而，收集大规模的标注数据是耗时的，通常需要大量的财务投入。因此，训练数据的创建已经成为计算机视觉方法进一步发展的瓶颈。然而，未标记的视觉数据可以以相对快速和廉价的方式大量收集。因此，计算机视觉研究的一个有希望的方向是开发可以从未标记或部分标记的数据中学习的方法。

在本文中，我们专注于语义图像分割任务。图像分割是一个重要的视觉任务的突出例子，创建标注数据对其来说尤其昂贵：如[4,29]所报道的，手工制作分割掩码每张图像需要几分钟的工作时间。因此，大量的先前研究致力于研究如何从较弱形式的注释中训练分割模型。

一个特别有吸引力的设定是使用仅具有每张图像标签的训练集来学习图像分割模型，因为这种形式的弱监督可以非常高效地收集。然而，目前仍然存在从每张图像标签训练的模型和从完整分割掩码训练的模型之间的性能差距。在本文中，我们证明相对于先前的最先进技术，这种差距可以大大减小。

我们提出了一种用于弱监督图像分割任务的卷积神经网络训练的新的复合损失函数。我们的方法依赖于以下三个见解：

我们的方法基于以下三个见解来提出一个新的复合损失函数，用于训练卷积神经网络进行弱监督图像分割：

图像分类神经网络，如AlexNet [19]或VGG [33]，可以用于生成可靠的对象定位线索（种子），但无法准确预测对象的空间范围。我们通过使用种子损失来纳入这一方面，该损失鼓励分割网络与定位线索匹配，但对图像的其他部分是不可知的。
为了从每张图像的注释中训练分割网络，可以使用全局池化层将分割掩码聚合为图像级别的标签得分。选择这个层对分割质量有很大影响。例如，最大池化倾向于低估对象的大小，而平均池化倾向于高估对象的大小。我们提出了一个全局加权排名池化，它被扩展损失利用来将对象种子扩展到合理大小的区域。它将最大池化和平均池化进行了泛化，并在我们的实证研究中表现优于它们。
从图像级别标签训练的网络很少能够捕捉到图像中对象的精确边界。在测试时通过完全连接的条件随机场（CRF）进行后处理通常不足以克服这个效应，因为一旦网络被训练，它们往往对错误分类的区域也很有信心。我们提出了一种新的边界约束损失，在训练时就缓解了不精确边界的问题。它努力约束预测的分割掩码尊重低级别的图像信息，特别是对象边界。

我们将我们的方法命名为SEC，因为它基于三个原则：种子（Seed）、扩展（Expand）和约束（Constrain）。在第3节中，我们正式定义和讨论了SEC损失函数的各个组成部分。在第4节中，我们在PASCAL VOC 2012图像分割基准上进行了实验评估，显示它在相同的实验设置下明显优于先前的最先进技术。我们还通过额外的实验证明并讨论了我们每个贡献的影响。

2.相关工作

语义图像分割是计算机视觉研究中一个相对较新的研究方向，它涉及为图像中的每个像素分配一个语义类别标签。这个领域的发展需要现代机器学习技术的支持，比如判别分类器[5,31]或概率图模型[21,28]。由于完全标注训练数据的创建是这些系统进一步改进的主要瓶颈，因此很快提出了弱监督训练方法以节省标注工作量。特别是，竞争性的方法被开发出来，它们只需要部分分割[11,37]或物体边界框[8,20,52]作为训练数据。

然而，一个仍然存在的挑战是如何从仅具有图像级标签的数据中学习分割模型[35,36]。现有方法可以分为三个主要类别。基于图的模型根据图像内部或图像之间的相似性推断出分割或超像素的标签[27,43,46–48]。多示例学习的变体[1]使用每个图像的损失函数进行训练，同时在内部维护一个可以用于生成分割掩码的图像空间表示[38–40]。自训练传统中的方法[30]训练一个完全监督的模型，但使用模型本身在类似EM的过程中创建所需的像素级注释[44,45,49]。我们的SEC方法结合了后两种方法的特点，它

最低0.47元/天解锁文章