本文是LLM系列文章,针对《Deal, or no deal (or who knows)? Forecasting Uncertainty in Conversations using Large Language Models》的翻译。
摘要
有效的对话者解释了他人不确定的目标、信念和情绪。但是,即使是最优秀的人类健谈者也无法完全预见对话的轨迹。语言模型在多大程度上能够代表对话中固有的不确定性?我们提出了FortUne Dial,这是对长期以来的“对话预测”任务的扩展:评估不只是准确性,而是使用不确定性感知指标进行的,有效地实现了对个别情况的弃权。我们研究了语言模型潜在地表示结果不确定性的两种方式(内部使用分数和直接使用标记),并提出了微调策略来改进这两种表示的校准。在八个困难的谈判语料库上的实验表明,我们提出的微调策略(传统的监督策略和非政策强化学习策略)可以校准较小的开源模型,与10倍于其大小的预训练模型竞争。
1 引言
2 对话中的不确定性建模
3 实验
4 相关工作
5 结论
我们发现,语言模型很好地代表了会话结果的不确定性,这取决于它们的大小、推理策