Deal, or no deal (or who knows) Forecasting Uncertainty in Conversations using Large Language Models

828 篇文章

已下架不支持订阅

本文探讨了大型语言模型在预测对话不确定性方面的表现,提出了一种评估方法——FortUne Dial,通过微调策略改进了模型的不确定性表示。实验显示,即使在有限数据下,这些模型也能与更大规模的预训练模型相媲美,并揭示了模型的某些偏好和局限性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Deal, or no deal (or who knows)? Forecasting Uncertainty in Conversations using Large Language Models》的翻译。

成交还是不成交(谁知道呢)?使用大型语言模型预测会话中的不确定性

摘要

有效的对话者解释了他人不确定的目标、信念和情绪。但是,即使是最优秀的人类健谈者也无法完全预见对话的轨迹。语言模型在多大程度上能够代表对话中固有的不确定性?我们提出了FortUne Dial,这是对长期以来的“对话预测”任务的扩展:评估不只是准确性,而是使用不确定性感知指标进行的,有效地实现了对个别情况的弃权。我们研究了语言模型潜在地表示结果不确定性的两种方式(内部使用分数和直接使用标记),并提出了微调策略来改进这两种表示的校准。在八个困难的谈判语料库上的实验表明,我们提出的微调策略(传统的监督策略和非政策强化学习策略)可以校准较小的开源模型,与10倍于其大小的预训练模型竞争。

1 引言

2 对话中的不确定性建模

3 实验

4 相关工作

5 结论

我们发现,语言模型很好地代表了会话结果的不确定性,这取决于它们的大小、推理策

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值