本文是LLM系列文章,针对《A Close Look into the Calibration of Pre-trained Language Models》的翻译。
预训练语言模型的校准研究
摘要
预训练语言模型(plm)可能无法给出预测不确定性的可靠估计。我们仔细研究了这个问题,旨在回答两个问题:(1)plm是否在训练过程中学会了校准?(2)现有校准方法的有效性如何?对于第一个问题,我们进行细粒度控制实验,研究PLMs在训练过程中校准性能的动态变化。我们考虑六个因素作为控制变量,包括数据集难度、可用训练样本、训练步骤、可调参数数量、模型规模和预训练。我们观察到校准性能在六个因素中的一致变化。我们发现,无论预测是否正确,plm都不会在训练中学会校准,这可以通过信心的持续增长来证明。我们强调,我们的发现在某种程度上与两个既定结论相矛盾:(a)更大的plm更精确;(b)预训练改进了模型校准。接下来,我们研究了现有校准方法在缓解过度置信度问题方面的有效性。除了不可学习的校准方法(如标签平滑),我们改编并扩展了最近提出的两种可学习的方法,直接收集数据来训练模型以获得合理的置信度估计。实验结果表明,可学习方法显著降低了PLMs对错误预测的置信度。代码可在https://github.com/lifan-yuan/PLMCalibration上获得。
本文深入探讨预训练语言模型(PLM)的校准问题,通过实验研究PLM在训练中是否学会校准及现有校准方法的效果。发现PLM在训练中并未学会校准,且大模型并不一定更准确。同时,可学习的校准方法能有效降低错误预测的置信度。研究还指出,理论理解与实际应用中校准方法的优化是未来工作重点。
已下架不支持订阅
1192

被折叠的 条评论
为什么被折叠?



