文章核心总结与翻译
主要内容
本文聚焦大语言模型(LLMs)在交互式问答任务中的序列查询策略,核心是解决传统信息追踪(IP)方法因LLM输出概率校准不佳导致的不确定性估计不准问题。提出了基于保形预测集的保形信息追踪(C-IP)算法,通过预测集大小替代条件熵来衡量不确定性,在20 Questions游戏和MediQ医疗交互式问答数据集上验证了其有效性,实现了更优的预测性能和更短的查询链,同时保持较高的可解释性。
创新点
- 提出C-IP算法,利用保形预测集的平均大小估计不确定性,避免依赖LLM的概率输出,实现无分布依赖且稳健的不确定性量化。
- 建立了预测集大小与条件熵的上界关系,为序列查询中的信息增益评估提供了新的数学依据。
- 设计了两种历史采样方法(均匀参数化采样、LLM模拟采样),适配封闭和开放两种查询集场景,提升算法实用性。
- 在医疗等真实场景中验证了方法的有效性,在保持与单轮预测相当性能的同时,提供了可解释的查询链。
Abstract 翻译
指令微调的大型语言模型(LLMs)的一个重要应用场景是交互式解决问答任务。在该场景中,LLM智能体需要通过向用户依次查询相关信息来进行预测,而非单轮对话。本文探索了旨在最小化预期查询次数的序列查询策略。信息追踪(IP)便是其中一种策略,它是一种贪心算法,在每次迭代中选择能最大化信息增益(或等价地最小化不确定性)的查询。然而,由于LLM的概率输出往往存在过度自信或自信不足的问题,实际中很难准

订阅专栏 解锁全文
2193

被折叠的 条评论
为什么被折叠?



