labelsmoothing

最新推荐文章于 2024-06-30 15:11:05 发布

原创

最新推荐文章于 2024-06-30 15:11:05 发布 · 298 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #深度学习 #人工智能

标签平滑是一种正则化方法，用于改进深度学习模型的泛化能力。它通过在训练过程中对one-hot标签进行平滑处理，避免模型过度依赖单一的正确标签，增加对错误标签的考虑，从而降低过拟合风险。在标签平滑中，正确标签会被赋予一个小的噪声值，而错误标签也会被赋予一个小的概率，使得模型在优化过程中同时关注正确分类和错误分类的概率，提升整体学习效果。

标签平滑- $l a b e l$ $s m o o t h i n g$

在深度学习样本训练的过程中，当我们采用 $o n e$ - $h o t$ 标签去进行计算交叉熵损失时，只考虑到训练样本中正确的标签位置（ $o n e$ - $h o t$ 标签为 $1$ 的位置）的损失，而忽略了错误标签位置（ $o n e$ - $h o t$ 标签为 $0$ 的位置）的损失。这样一来，模型可以在训练集上拟合的很好，但由于其他错误标签位置的损失没有计算，导致预测的时候，预测错误的概率增大。为了解决这一问题，标签平滑的正则化方法便应运而生。

什么是标签平滑

标签平滑采用如下思路：在训练时即假设标签可能存在错误，避免“过分”相信训练样本的标签。当目标函数为交叉熵时，这一思想有非常简单的实现，称为标签平滑（ $L a b e l$ $S m o o t h i n g$ ）。在训练样本中，我们并不能保证所有的样本标签都标注正确，如果某个样本的标注是错误的，那么在训练时，该样本就有可能对训练结果产生负面影响。一个很自然的想法是，如果我们有办法“告诉”模型，样本的标签不一定正确，那么训练出来的模型对于少量的样本错误就会有“免疫力”。

为了达到这个目标，我们很自然想到的方法是：在每次迭代时，并不直接将( ${x_i}$ , ${y_i}$ )放入训练集，而是设置一个错误率 $ϵ\epsilon$ ，以 1- $ϵ\epsilon$ 的概率将( ${x_i}$ , ${y_i}$ )代入训练，以 $ϵ\epsilon$ 的概率将( ${x_i}$ ,1- ${y_i}$ )代入训练。这样，模型在训练时，既有正确标签输入，又有错误标签输入，可以想象，如此训练出来的模型不会“全力匹配”每一个标签，而只是在一定程度上匹配。这样，即使真的出现错误标签，模型受到的影响就会更小。