这是2020年关于Noisy Label的一篇综述,简要的做一记录。
文章链接:
https://arxiv.org/abs/2007.08199
Background
为什么要解决Noisy Labels的问题?
DNN's can easily fit an entire training dataset with any ratio of corrupted labels, which eventually resulted in poor generalizability on a test dataset.
也就是说,DNN强大的拟合能力导致在有噪声污染数据集上训练的模型,在测试集上的泛化能力变差;
从细节原因来看,有如下几点:
- 同其他的Noisy相比(比如input noise),Label Noise造成的危害更大;
- 现有的一些正则化方法,比如data arguments, dropout在解决Label Noisy问题上效果不佳;
该综述的论述范围
Supervised-Learning
Adversarial Learning:
Data imputation:
Feature Noise
前言Preliminaries
Label Noise的分类
- Instance-Independent Label Noise: 真实的样本标签已存在,标签的退化过程与数据特征是条件独立的;也就是说,噪声标签由一个transition matrix 转换而来;
- Symmetric Noise (Uniform Noise) : 真实标签污染成其他任意标签的概率是相同的,并不依赖于任一标签;
- Asymmetric Noise (Label dependent Noise): 真实标签更容易被污染为一个特定的标签(或者说,真实标签污染为某一个特定标签的概率最大!概率不同)
- Pair Noise: 真实标签只能转换为一种特定的标签;
- Ins