该问题归类到Transformer架构问题集——训练与优化——损失函数。请参考LLM数学推导——Transformer架构问题集。
1. 问题背景
在大语言模型(LLM)的训练过程中,模型的校准误差是一个重要的性能指标。校准良好的模型能够给出与实际概率相符的预测概率,即模型预测某个类别的概率为 p 时,在大量样本中该类别实际出现的频率也接近 p。然而,传统的独热编码(One - Hot Encoding)标签方式在训练时可能导致模型过于自信,使得模型的预测概率往往集中在某一个类别上(接近 0 或 1),从而产生较大的校准误差。标签平滑(Label Smoothing)技术应运而生,它旨在通过对标签进行一定的平滑处理,来改善模型的校准性能,减少校准误差,使模型的预测更加合理和可靠。
2. 技术原理
- 独热编码与模型过自信问题:在传统的多分类任务中,通常使用独热编码来表示标签。例如,对于一个三分类问题,真实类别为第二类时,其独热编码为
。在训练过程中,交叉熵损失函数鼓励模型对正确类别的预测概率尽可能接近 1,对其他类别的预测概率尽可能接近 0。这会导致模型在训练后期变得过于自信,即使对于一些难以判断的样本,也会给出非常极端的预测概率。从数学角度看,交叉熵损失
(其中
是独热编码的标签,
是模型预测属于第&nb

最低0.47元/天 解锁文章
3441

被折叠的 条评论
为什么被折叠?



