A Close Look into the Calibration of Pre-trained Language Models

最新推荐文章于 2025-11-26 15:49:07 发布

UnknownBody

最新推荐文章于 2025-11-26 15:49:07 发布

阅读量428

点赞数

CC 4.0 BY-SA版权

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/133860448

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文深入探讨预训练语言模型（PLM）的校准问题，通过实验研究PLM在训练中是否学会校准及现有校准方法的效果。发现PLM在训练中并未学会校准，且大模型并不一定更准确。同时，可学习的校准方法能有效降低错误预测的置信度。研究还指出，理论理解与实际应用中校准方法的优化是未来工作重点。

本文是LLM系列文章，针对《A Close Look into the Calibration of Pre-trained Language Models》的翻译。

摘要

预训练语言模型(plm)可能无法给出预测不确定性的可靠估计。我们仔细研究了这个问题，旨在回答两个问题:(1)plm是否在训练过程中学会了校准?(2)现有校准方法的有效性如何?对于第一个问题，我们进行细粒度控制实验，研究PLMs在训练过程中校准性能的动态变化。我们考虑六个因素作为控制变量，包括数据集难度、可用训练样本、训练步骤、可调参数数量、模型规模和预训练。我们观察到校准性能在六个因素中的一致变化。我们发现，无论预测是否正确，plm都不会在训练中学会校准，这可以通过信心的持续增长来证明。我们强调，我们的发现在某种程度上与两个既定结论相矛盾:(a)更大的plm更精确;(b)预训练改进了模型校准。接下来，我们研究了现有校准方法在缓解过度置信度问题方面的有效性。除了不可学习的校准方法(如标签平滑)，我们改编并扩展了最近提出的两种可学习的方法，直接收集数据来训练模型以获得合理的置信度估计。实验结果表明，可学习方法显著降低了PLMs对错误预测的置信度。代码可在https://github.com/lifan-yuan/PLMCalibration上获得。