通过领域自适应实现带噪声标签的可扩展图像分类器学习
1. 背景
大规模图像识别领域的进步很大程度上得益于像ImageNet和MSCOCO这样的大规模标记图像集合。然而,收集大规模的手动标记数据集通常是昂贵且耗时的,尤其是在需要领域专家进行细粒度识别的情况下。例如,特定领域的细粒度识别可能需要招募一组专家来标注数据,这使得数据收集更具挑战性。
在实践中,为了快速开发图像识别模型,通常会使用替代方法,例如使用带有用户提供的标签的网络图像或通过图像搜索引擎爬取的网络图像。这些方法虽然易于扩展,但也引入了噪声标签和领域偏移问题。许多研究表明,噪声标签会显著影响分类器的准确率,因此开发在存在噪声标签的情况下进行学习的算法变得尤为重要。
2. 人工监督的可扩展性与有效性之间的冲突
我们可以大致将之前为学习带有噪声标签的分类器提出的方法分为两类,这取决于是否涉及人类努力(或其他类型的高准确度监督信号)。
2.1 依赖人类努力的方法
最简单的方法是让标注工人审查整个数据集(例如从互联网上抓取的图像),并移除错误标注的实例。一个众所周知的例子是ImageNet数据集。一些大规模的训练数据,如LSUN数据集和Places数据集,是通过结合使用图像分类算法和人类半自动标记图像来构建的,从而放大了人类的努力。
这些方法虽然有效,但不具备可扩展