本文是LLM系列文章,针对《Deal, or no deal (or who knows)? Forecasting Uncertainty in Conversations using Large Language Models》的翻译。
摘要
有效的对话者解释了他人不确定的目标、信念和情绪。但是,即使是最优秀的人类健谈者也无法完全预见对话的轨迹。语言模型在多大程度上能够代表对话中固有的不确定性?我们提出了FortUne Dial,这是对长期以来的“对话预测”任务的扩展:评估不只是准确性,而是使用不确定性感知指标进行的,有效地实现了对个别情况的弃权。我们研究了语言模型潜在地表示结果不确定性的两种方式(内部使用分数和直接使用标记),并提出了微调策略来改进这两种表示的校准。在八个困难的谈判语料库上的实验表明,我们提出的微调策略(传统的监督策略和非政策强化学习策略)可以校准较小的开源模型,与10倍于其大小的预训练模型竞争。
1 引言
2 对话中的不确定性建模
3 实验
4 相关工作
5 结论
我们发现,语言模型很好地代表了会话结果的不确定性,这取决于它们的大小、推理策略、训练策略和对先验知识的获取。我们设计了一个任务来评估这种能力,并展示:
- 大型(商业规模)模型做得很好,提供了有限的数据来选择超参数;
- 在没有数据的情况下,这些模型仍然比低质量
使用大型语言模型预测对话中的不确定性:FortUne Dial
本文探讨了大型语言模型在预测对话不确定性方面的表现,提出了一种评估方法——FortUne Dial,通过微调策略改进了模型的不确定性表示。实验显示,即使在有限数据下,这些模型也能与更大规模的预训练模型相媲美,并揭示了模型的某些偏好和局限性。
已下架不支持订阅
568

被折叠的 条评论
为什么被折叠?



