本文是LLM系列文章,针对《Think Twice Before Assure: Confidence Estimation for Large Language Models through Reflection on Multiple Answers》的翻译。
摘要
旨在评估输出可信度的置信度估计对于大型语言模型(LLM)的应用至关重要,尤其是黑匣子模型。由于LLM对其生成的不正确答案过于自信,LLM的现有置信度估计通常不会被校准。解决过度自信问题的现有方法受到一个重大限制的阻碍,即它们仅考虑LLM生成的一个答案的置信度。为了解决这一限制,我们提出了一种新的范式,该范式全面评估多个候选答案的可信任性,以减轻对错误答案的过度自信。基于这一范式,我们引入了一个两步框架,该框架首先指示LLM反映并提供每个答案的理由,然后聚合综合置信度估计的理由。该框架可以与现有的置信度估计方法集成,以实现卓越的校准。在三个任务的六个数据集上的实验结果证明了所提出的框架的合理性和有效性。
1 引言
2 问题定义
3 在确认之前三思框架
4 相关工作
5 实验
6 结论
在本文中,我们解决了API LLM的置信度估计的过度自信问题。我们将现有的方法分为两种范式,并指出了它们仅对具有潜在LLM过度自信的单个目标答案进行估计的局限性。我们提出了一种新的范式,
本文关注大型语言模型(LLM)的过度自信问题,提出一种新范式,通过评估多个候选答案的可信任性来提高置信度估计的准确性。介绍了一个两步框架(TTA),先让LLM反思并提供每个答案的理由,再进行综合置信度估计。实验证明,该框架能有效提升校准性能。
订阅专栏 解锁全文
1191

被折叠的 条评论
为什么被折叠?



