【CVPR2019】弱监督图像分类建模

最新推荐文章于 2024-12-13 00:58:44 发布

深度学习大讲堂

最新推荐文章于 2024-12-13 00:58:44 发布

阅读量3.2k

点赞数 1

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/XWUkefr2tnh4/article/details/97328603

编者按：获取大规模数据集的高置信标注是一个难点问题，而解决此问题的弱监督学习更贴近人类对世界的认知机制。已有的弱监督图像分类研究，通常局限于单标签或者多标签噪声场景。本文中，将为大家介绍中科院计算所VIPL组的CVPR2019新作：作者提出了一种基于噪声正则化的弱监督图像分类方法，通过结合使用大量噪声标注数据和少量干净标注数据(比如5%)，提升图像分类效果的同时，在多标签和单标签场景中取得了更好的泛化能力。

1.引言

在计算机视觉领域，目前主流的图像分类方法仍然是基于完备标注数据的有监督学习，然而，在实际场景中，完全而精确的图像标签往往难以获得。例如，由于知识水平的差异不同的人可能对同一类图像有不同理解，从而给出不一致的标签。此外，为了降低标注成本，可以利用预训练模型对采集的大规模数据进行自动标注，但往往会得到大量不准确的标签，仅仅其中的一小部分数据可以得到人工验证。然而，传统的有监督学习方法很难处理这类带有噪声标签的数据。

现有的弱监督图像分类方法通常对于噪声标签类型有特定的假设，如单标签噪声或者多标签噪声。单标签噪声假设的分类方法，可以在训练过程中对于相似的图像进行聚类，而多标签噪声假设的分类方法，可以使用标签与标签之间的联系来增加算法的鲁棒性。尽管这些方法有助于提升模型的性能，但是在一定程度上限制了模型的泛化能力。

为此，在这个工作中，我们关注于提升模型的泛化能力，期待模型可以同时应用于单标签数据和多标签数据。我们观察到尽管现有的方法使用不同的假设辅助分类器学习，核心思想依然在于区分大量噪声标签中的可信与不可信的信息。如图1所示，一些使用标签与标签或者图像与标签之间关联的方法，会利用这些关系的正相关或者负相关强度来决定标签中的可用信息。

图表1 利用标签-标签关系和图像-标签关系的噪声学习方法

因此，我们提出了一种弱监督图像分类的方法，结合使用大量噪声标注数据和少量干净标注数据，通过两个子网络分别学习噪声标签中的可信与不可信的部分，减少了不可信的信息对模型的影响。我们的方法可以同时应用于单标签和多标签数据，并且不依赖于成对的干净-噪声标注数据。我们在两个多标签数据集(OpenImage和MS COCO2014)和一个单标签数据集(Clothing1M)评估了该方法。实验结果表明，该方法优于现有的最好方法，并在单标签和多标签噪声假设的场景下有很好的泛化能力。

2.方法