2025_NIPS_Conformal Information Pursuit for Interactively Guiding Large Language Models

文章核心总结与翻译

主要内容

本文聚焦大语言模型(LLMs)在交互式问答任务中的序列查询策略,核心是解决传统信息追踪(IP)方法因LLM输出概率校准不佳导致的不确定性估计不准问题。提出了基于保形预测集的保形信息追踪(C-IP)算法,通过预测集大小替代条件熵来衡量不确定性,在20 Questions游戏和MediQ医疗交互式问答数据集上验证了其有效性,实现了更优的预测性能和更短的查询链,同时保持较高的可解释性。

创新点

  1. 提出C-IP算法,利用保形预测集的平均大小估计不确定性,避免依赖LLM的概率输出,实现无分布依赖且稳健的不确定性量化。
  2. 建立了预测集大小与条件熵的上界关系,为序列查询中的信息增益评估提供了新的数学依据。
  3. 设计了两种历史采样方法(均匀参数化采样、LLM模拟采样),适配封闭和开放两种查询集场景,提升算法实用性。
  4. 在医疗等真实场景中验证了方法的有效性,在保持与单轮预测相当性能的同时,提供了可解释的查询链。

Abstract 翻译

指令微调的大型语言模型(LLMs)的一个重要应用场景是交互式解决问答任务。在该场景中,LLM智能体需要通过向用户依次查询相关信息来进行预测,而非单轮对话。本文探索了旨在最小化预期查询次数的序列查询策略。信息追踪(IP)便是其中一种策略,它是一种贪心算法,在每次迭代中选择能最大化信息增益(或等价地最小化不确定性)的查询。然而,由于LLM的概率输出往往存在过度自信或自信不足的问题,实际中很难准

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值