噪音标签工作总结

最新推荐文章于 2025-04-02 10:20:54 发布

言一法师

最新推荐文章于 2025-04-02 10:20:54 发布

阅读量1.3k

点赞数 7

分类专栏：噪声标签文章标签：人工智能深度学习

本文链接：https://blog.youkuaiyun.com/Winterfell01/article/details/132779597

版权

噪声标签专栏收录该内容

1 篇文章

订阅专栏

噪声标签工作介绍

假设图像被分为了 $C$ 个类， $X\in R^{d}$ 为图像的特征空间（feature space）， $Y=\{1,2,\cdots,C\}$ 为标签空间（label space）。具有真实标签的数据集 $\mathcal{D}$ 中有 $n$ 个训练样本，每一个训练样本表示为 $(x_k,y_k)\in(X\times Y),k=1\cdots n$ ，其中 $y_k$ 是 $x_k$ 的真实标签。样本 $x_k$ 的真实标签 $y_k$ 因为某些原因（比如人为标注错误）被转化为了噪声标签 $\tilde{y}_{k}$ 。

我们将噪声标签的产生过程（corruption process）抽象为一个函数 $F_{N}(\cdot)$ ，这个函数作用在具有真实标签的数据集 $\mathcal{D}$ （以下称为干净数据集）上（该数据集的所有样本均具有真实的，正确的标签）产生具有噪声标签的数据集 $\tilde{\mathcal{D}}$ （以下称为噪声数据集），如下：

$\tilde{\mathcal{D}}=F_{N}(\mathcal{D})$

这个函数有两个重要的参数：

1️⃣噪声率 $\varphi$ ；

噪声率 $\varphi$ 表示干净数据集 $\mathcal{D}$ 中有 $\varphi*n$ 个样本的标签被转化为了错误的标签，其余 $(1-\varphi)*n$ 个样本的标签仍然是正确的，其中 $\varphi\in[0,1]$ 。

2️⃣真实标签转化为噪声标签的转化概率（corruption probability） $\rho$ 。

一般地，样本 $x_k$ 的真实标签 $y_k=i,i\in Y$ 转化为噪声标签 $\tilde{y}_{k}=j,j\in Y$ 的概率可以表示为 ${\rho}_{ij}(x_k)=p(\tilde{y}_{k}=j|y_{k}=i,x_{k})$ 。

标签噪声的分类

Instance-independent Label Noise

真实标签 $i$ 转化为噪声标签 $j$ 的概率与具体的哪个样本无关，此时的转化概率 $\rho$ 可以直接写成：

$\rho_{ij}=p(\tilde{y}=j|y=i)$

此时， $C$ 个类之间的转化可以表示为噪声转移矩阵（noise transition matrix） $\mathrm{T}$ ， $\mathrm{T}$ 中的每一个元素 $\mathrm{T}_{ij}=\rho_{ij}$ ，表示真实标签 $i$ 转化为噪声标签 $j$ 的概率。例如，当 $C = 3$ 时， $\mathrm{T}$ 可以表示为：

$\mathrm{T}=\begin{bmatrix}\rho_{11}&\rho_{12}&\rho_{13}\\\rho_{21}&\rho_{22}&\rho_{23}\\\rho_{31}&\rho_{32}&\rho_{33}\end{bmatrix}$

其中 $\rho_{ij}\in[0,1]$ 且 $\sum_{j=1}^3\rho_{ij}=1$ 。

1️⃣symmetric（or uniform）

真实标签 $i$ 以相同的概率转化为其它标签 $j$ （ $j\neq i$ ）。此时的噪声转移矩阵 $\mathrm{T}$ 表现为一个对称矩阵，即 $\mathrm{T}^{\top}=\mathrm{T}$ 。在噪声率为 $\varphi,\varphi\in [0,1]$ 的情况下， $\mathrm{T}$ 中的每一个元素为：

$\forall_{i=j}\mathrm{T}_{ij}=1-\varphi\wedge\forall_{i\neq j}\mathrm{T}_{ij}=\frac{\varphi}{C-1}$

以下为噪声率 $\varphi=0.4$ 的噪声转移矩阵：

2️⃣asymmetric（or label-dependent）

真实标签 $i$ 更可能转化为其它特定的某个标签 $j$ （ $j\neq i$ ）。此时， $\mathrm{T}$ 中的每一个元素为：

$\forall_{i=j}\mathrm{T}_{ij}=1-\varphi\wedge\exists_{i\neq j,i\neq k,j\neq k}\mathrm{T}_{ij}>\mathrm{T}_{ik}$

上式的后半部分： $\exists_{i\neq j,i\neq k,j\neq k}\mathrm{T}_{ij}>\mathrm{T}_{ik}$ 就是在表达：比起标签 $k$ ，真实标签 $i$ 更有可能转化为 $j$ 。举例来说，一只“狗🐶”有较大可能被混淆为一只“猫🐈”，而只有较小的可能被混淆为一条“鱼🐟”。

特别地，存在一种更严苛的情况（pair noise），那就是真实标签 $i$ 只可能转化为某一特定的标签 $j$ （ $j\neq i$ ），完全没有可能转化为除 $i, j$ 外的其它标签。此时 $\mathrm{T}$ 中的每一个元素为：

$\forall_{i=j}\mathrm{T}_{ij}=1-\varphi\wedge\exists_{i\neq j}\mathrm{T}_{ij}=\varphi$

Instance-dependent Label Noise

这种是更为一般的情况，标签的转换不仅与类标签（class labels）有关，还与数据特征（data features）本身有关，标签转化概率 $\rho$ 可以写成（每个类下的每个样本都有自己的一组标签转化概率）：

${\rho}_{ij}(x_k)=p(\tilde{y}_{k}=j|y_{k}=i,x_{k})$

不同的克服噪声标签的方法

以下是对不同的克服噪声标签的方法的分类，可以利用这些方法对深度神经网络（DNNs）进行对噪声标签鲁棒的训练（robust training）：

网络结构优化（robust architecture）

许多研究对干净数据集 $\mathcal{D}$ 噪声化的过程，也即噪声标签产生的过程（函数表达为 $F_N(\cdot)$ ）进行建模。为了建模 $F_N(\cdot)$ ，它们要么选择在原有的基础结构（base model）上进行修改，1️⃣在 $\mathrm{softmax}$ 层上添加噪声适应层（Noise Adaptation Layer），2️⃣要么选择设计新的专用网络架构（Dedicated Architecture）。通过这些变化，所得到的架构可以利用估计的转化概率 $\rho$ 对深度神经网络（DNNs）的输出结果进行调整，从而实现了更好的泛化效果。

Noise Adaptation Layer

Noise Adaptation Layer通过一个深度神经网络（DNN）来模仿标签转化的过程。其实就是通过DNN来建模 $F_N(\cdot)$ 的转化概率 $\rho(x)$ 。

The noise adaptation layer is intended to mimic the label transition behavior in learning a DNN.

对于一个样本 $x$ ，其噪声标签后验概率可以表达为：

$\begin{aligned}p(\tilde{y}=j|x)&=\sum_{i=1}^Cp(\tilde{y}=j,y=i|x)=\sum_{i=1}^C\rho(x)p(y=i|x),\\&\mathrm{where}\quad\rho(x)=p(\tilde{y}=j|y=i,x).\end{aligned}$

设 $p(y|x;\Theta)$ 为具有 $\mathrm{softmax}$ 输出层的base Model的输出，样本 $x$ 被预测为其噪声标签 $\tilde{y}$ 的概率可以写成：

$\begin{aligned} p(\tilde{y}=j|x;\Theta,\mathcal{W})& =\sum_{i=1}^Cp(\tilde{y}=j,y=i|x;\Theta,\mathcal{W}) \\ &&\text{(4)} \\ &=\sum_{i=1}^C\underbrace{p(\tilde{y}=j|y=i,x;\mathcal{W})}_{\text{Noise Adaptation Layer}}\underbrace{p(y=i|x;\Theta)}_{\text{Base Model}}. \end{aligned}$

其中 $\mathcal{W}$ 是Noise Adaptation Layer的参数。当噪声标签 $\tilde{y}$ 与输入 $x$ 条件独立（conditionally independent）的时候，也就是Instance-independent Label Noise的情况，上述Noise Adaptation Layer可以写成（真实标签 $i$ 转化为哪一个噪声标签 $j$ 与具体哪一个样本 $x$ 无关）：

$p(\tilde{y}=j|y=i,x;\mathcal{W})=\underbrace{p(\tilde{y}=j|y=i;\mathcal{W})}_{\text{Noise Adaptation Layer}}$

$\tilde{y}$ and $x$ are said to be conditionally independent given $y$ , written symbolically as: $(\tilde{y}\perp\!\!\!\perp x\mid y)$ .

使用Noise Adaptation Layer进行噪声建模的过程如下：

1️⃣在测试阶段，Noise Adaptation Layer被移除，仅使用Base Model进行判断。

2️⃣这种方法对待所有样本都一视同仁，不能找出那些被错误标签的样本。

3️⃣在噪声率较高时，转化概率（或者说噪声转移矩阵）的估计误差较大。

Dedicated Architecture

通过设计新的专用网络架构来增加标签转化概率 $\rho(x)$ 估计的可靠性。

Increasing the reliability of estimating the label transition probability.

具体的结构各不相同，详见部分相关论文：

1️⃣🔗Learning From Massive Noisy Labeled Data for Image Classification

2️⃣🔗Masking: A New Perspective of Noisy Supervision

3️⃣🔗Deep Learning From Noisy Image Labels With Quality Embedding

4️⃣🔗Robust Inference via Generative Classifiers for Handling Noisy Labels

正则化（Regularization）约束

提到正则化（Regularization），我们可能想到data augmentation，weight decay，dropout和batch normalization等被广泛应用的方法。这些经典的正则化方法在噪声数据集 $\mathcal{D}^{\prime}$ 中含有适量（moderate）噪声时表现良好，但仅靠它们并不能充分提高测试准确性；当噪声较为严重（heavy）时，可能仍会出现泛化能力较差的情况。

因此，最近提出了许多更先进的正则化技术，它们与经典方法相结合，进一步提高了对标签噪声的稳健性。

Explicit Regularization

显示的正则化直接对使用的训练损失做直观的修改，比如说weight decay和dropout。

👉具体的例子：

Early-Learning Regularization：🔗Early-Learning Regularization Prevents Memorization of Noisy Labels，简称ELR。

对深度神经网络（DNNs）的记忆效应(memorization effects)的研究表明：对于噪声数据集 $\mathcal{D}^{\prime}$ ，深度神经网络会首先记忆具有干净标签的训练数据，然后再记忆带有噪声标签的训练数据。这说明DNNs在训练早期学到的东西是比较正确的。ELR就是充分利用模型的早期学习阶段，利用损失内的正则化项鼓励模型将当前输出与历史目标输出（targets）靠拢，也就是最大化 $\mathbf{p}^{[i]}(k)$ 和 $\mathbf{t}^{[i]}(k)$ 的内积，损失形式如下：

$\mathcal{L}_{\mathrm{ELR}}(\Theta):=\mathcal{L}_{\mathrm{CE}}(\Theta)+\underbrace{\frac\lambda n\sum_{i=1}^n\log\left(1-\langle\mathbf{p}^{[i]},\mathbf{t}^{[i]}\rangle\right)}_{\text{Early-Learning Regularization}}$

其中， $\mathbf{t}^{[i]}(k)$ 和 $\mathbf{p}^{[i]}(k)$ 分别为样本 $i$ 在第 $k$ 轮迭代时模型的历史目标输出（targets）和当前输出。历史目标输出就是模型历史输出的移动平均（running average），如下：

$\mathbf{t}^{[i]}(k):=\beta\mathbf{t}^{[i]}(k-1)+(1-\beta)\mathbf{p}^{[i]}(k)$

其中， $\beta$ 为动量系数。
Implicit Regularization

隐式的正则化通过增加输入的数据或其标签的随机性（拓展特征或标签空间）的方式隐式地提高模型对噪声标签的忍受程度。

👉具体的例子：

mixup：🔗mixup: Beyond Empirical Risk Minimization通过噪声训练样本之间的简单线性组合来实现正则化，训练用到的mini-batch是通过噪声数据集 $\mathcal{D}^{\prime}$ 中随机的两个噪声样本 $(x_{i},\tilde{y}_{i})$ 和 $(x_{j},\tilde{y}_{j})$ 线性插值得到的。

$x_{mix}=\lambda x_i+(1-\lambda)x_j\quad\text{and}\quad y_{mix}=\lambda\tilde{y}_i+(1-\lambda)\tilde{y}_j$

其中 $\lambda\in[0,1]$ 。PyTorch-like的伪代码如下：
```
# y1, y2 should be one-hot vectors
for (x1, y1), (x2, y2) in zip(loader1, loader2):
lam = numpy.random.beta(alpha, alpha)
x = Variable(lam * x1 + (1. - lam) * x2)
y = Variable(lam * y1 + (1. - lam) * y2)
optimizer.zero_grad()
loss(net(x), y).backward()
optimizer.step()
```

损失设计

固定但鲁棒的损失函数

👉具体的例子：

GCE：🔗Generalized Cross Entropy Loss for Training Deep Neural Networks with Noisy Labels。文中作者对比分析了categorical cross entropy（CCE）损失和mean absolute error（MAE）损失，认为：在噪声标签存在的情况下，MAE比CCE更鲁棒。但同时也存在一个问题，MAE损失收敛比较慢，而且得到的效果也不好（测试误差比较大），如下图（分别在CIFAR10和CIFAR100数据集上）：

于是作者设计了他们称之为generalized cross entropy（GCE）的损失，其兼顾CCE的快速收敛及高泛化能力和MAE的噪声鲁棒性，其形式如下：

$\mathcal{L}_q(f(\boldsymbol{x}),\boldsymbol{e}_j)=\frac{(1-f_j(\boldsymbol{x})^q)}q$

其中 $q\in(0,1]$ 。上式（GCE）在 $q\rightarrow0$ 时变成CCE，在 $q = 1$ 时变成MAE。得到的效果还不错：

可以看到在 $q = 0.7$ 的时候，模型给予错误标签样本的平均预测分数相比CCE低了不少，说明模型能够识别到噪声样本并给予它低的分数。
自适应调整的损失函数

这一类方法根据它们理念的不同又可以分为以下几种：

1️⃣Loss Correction

Estimate the noise transition matrix $\hat{\mathrm{T}}$ to correct the forward or backward loss.

这种方法类似于前文网络结构优化中提到的Noise Adaptation Layer，loss correction将估计的 $\hat{p}(\tilde{y}\mid y;\mathcal{W})$ 要么在前向传播阶段作用到网络输出上（forward correction），要么在后向传播阶段作用到网络损失上（backward correction）。与Noise Adaptation Layer的区别是，Loss Correction噪声转移矩阵的估计是与要训练的模型的训练过程解耦的，而不是像Noise Adaptation Layer那样作为要训练的模型的一部分。

🤜forward correction

先用噪声转移矩阵对softmax的输出进行修改，再应用损失函数：

$\begin{aligned} \mathop{\ell}\limits ^\rightarrow\big(f(x;\Theta),\tilde{y}\big)&=\ell\Big(\Big\langle\hat{p}(\tilde{y}|1),\ldots,\hat{p}(\tilde{y}|C)\Big\rangle f(x;\Theta)^{\top},\tilde{y}\Big) \\ &=\ell\left(\hat{\mathrm{T}}^{\top}f(x;\Theta)^{\top},\tilde{y}\right) \end{aligned}$

🤛backward correction

先对所有可以观测的类别（ $1,\ldots,C$ ）应用损失函数，再用inverse的噪声转移矩阵对整体损失进行修改：

$\mathop{\ell}\limits ^\leftarrow\big(f(x;\Theta),\tilde{y}\big)=\hat{\mathrm{T}}^{-1}\Big\langle\ell\big(f(x;\Theta),1\big),\ldots,\ell\big(f(x;\Theta),C\big)\Big\rangle^{\top}$

方法的关键在于噪声转移矩阵noise transition matrix的估计。详见🔗Making Deep Neural Networks Robust to Label Noise: A Loss Correction Approach。

🥇gold loss correction

🔗Using Trusted Data to Train Deep Networks on Labels Corrupted by Severe Noise

这种方法相较于forward correction和backward correction仅改变了噪声转移矩阵的估计方式。作者认为存在少量的值得信赖的正确样本（gold samples）来帮助我们进行噪声转移矩阵的估计。

2️⃣Loss Reweighting

给予具有错误标签的样本较小的权重，给予具有真实标签的样本较大的权重。

在mini-batch $\mathcal{B}_t$ 上重新加权的损失可以写成：

$\Theta_{t+1}=\Theta_t-\eta\nabla\Bigl(\frac1{|\mathcal{B}_t|}\sum_{(x,\tilde{y})\in\mathcal{B}_t}\overbrace{w(x,\tilde{y})\ell\bigl(f(x;\Theta_t),\tilde{y}\bigr)}^{\text{Reweighted Loss}}\Bigr),$

其中 $w(x,\tilde{y})$ 为具有噪声标签 $\tilde{y}$ 的样本 $x$ 的权重。因此，具有小权重的样本不会明显影响DNN的学习。

这种方式在实践中比较难以实现，因为不同的噪声数据集 $\mathcal{D}^{\prime}$ 可能需要不同的产生权重 $w(x,\tilde{y})$ 的方式。某一种产生权重的策略可能对某一个数据集有用，对另外一个不同的数据集可能就没用了。

3️⃣Label Refurbishment

refurbishment就是调整、重新装修的意思，这里的label refurbishment指的是利用DNN： $f(x;\Theta)$ 当前的预测输出 $\hat{y}$ 来修正噪声标签 $\tilde{y}$ ，得到修正后的标签 $y^{refurb}$ 。在后向传播损失的时候利用的是修正后的标签 $y^{refurb}$ 而不是噪声标签 $\tilde{y}$ 。

$y^{refurb}=\alpha\tilde{y}+(1-\alpha)\hat{y},\,\alpha\in[0,1]$

最近，SELFIE：🔗Refurbishing Unclean Samples for Robust Deep Learning引入了可翻新样本（refurbishable examples）的概念，可以实现高精度的校正。关键思想是将具有一致标签预测（consistent label predictions）的样本视为可翻新的，因为由于学习者的感知一致性（对同一对象的感知应该是一致的），这种一致的预测很可能与其真实标签相对应。因此，仅校正可翻新样本的标签，以最小化错误校正案例的数量。

4️⃣Meta Learning

近年来，元学习成为机器学习社区的一个重要主题，并被应用于提高噪声鲁棒性。关键概念是learn to learn，在高于传统学习方法的维度进行学习，从而制定与数据和噪声类型无关的loss correction规则。它类似于loss reweighting和label refurbishment，但调整是以元学习的方式自动进行的。

样本选择

从噪声数据集 $\mathcal{D}^{\prime}$ 中选择具有真实标签的样本来训练DNN。

Selecting true-labeled examples from a noisy training dataset.

设 $\mathcal{B}_{t}$ 为 $t$ 时刻的mini-batch， $\mathcal{C}_{t}\subseteq\mathcal{B}_{t}$ 为 $t$ 时刻经过某种判断策略被认定为干净样本的集合。DNN只在选择的干净样本集合 $\mathcal{C}_{t}$ 上进行更新。

$\Theta_{t+1}=\Theta_t-\eta\nabla\Big(\frac1{|\mathcal{C}_t|}\sum_{(x,\tilde{y})\in\mathcal{C}_t}\ell\big(f(x;\Theta_t),\tilde{y}\big)\Big)$

利用样本选择（sample seletion）进行学习有很好的动机，在一般情况下效果也很好，但这种方法会因选择不正确（incorrect selection）而产生累积误差，尤其是当训练数据中有很多模糊类别时。因此，最近的方法通常利用多个DNNs相互合作或运行多轮训练来进行更准确的样本选择。此外，为了充分利用选出的具有错误标签的样本，许多研究还将loss correction或半监督学习方法与样本选择策略相结合。

Multi-network Learning

Collaborative learning和co-training被广泛用于multi-network多网络训练。样本选择过程分别由mentor network（collaborative learning的情况下）或者peer network（co-training的情况下）决定。

在🔗MentorNet: Learning Data-Driven Curriculum for Very Deep Neural Networks on Corrupted Labels中，一个预训练的导师网络以合作学习（collaborative learning）的方式指导学生网络的训练。基于"小损失技巧（small-loss trick）"，导师网络向学生网络提供可能具有真实标签的样本。

small-loss trick

Many true-labeled examples tend to exhibit smaller losses than false-labeled examples, so we can treat a certain number of small-loss training examples as true-labeled examples.

🔗Decoupling "when to update" from "how to update"维护两个网络 $h_1$ 和 $h_2$ ，如果两个网络对输入 $x$ 的预测不同（disagreement），即 $h_1(x)\neq h_2(x)$ 时，样本 $x$ 才会被用来更新两个网络。作者认为这样的样本 $x$ 才是价值比较大的。如下图：

🔗Co-teaching: Robust training of deep neural networks with extremely noisy labels和🔗Co-teaching+: How does Disagreement Help Generalization against Label Corruption?也维护着两个深度神经网络（DNNs），每个DNN选择一定数量的小损失样本（潜在干净样本），并将它们分别送给对方进行进一步的训练。
Multi-round Learning

不需要另外附加的网络，单一网络通过多轮迭代，优化被选择的干净样本集合。
Hybrid Approach

样本选择方法（sample selection）的不足之处在于其会丢弃所有未被选中的训练样本，没有完全应用所有训练样本。为了利用所有噪声样本（noisy samples），研究人员尝试将样本选择与其它的思想结合起来。

典型的方法是DivideMix：🔗DivideMix: Learning with Noisy Labels as Semi-supervised Learning。

over.

注：本文主要参考了Learning From Noisy Labels With Deep Neural Networks: A Survey，更多细节请看原文。