NeurIPS 2024 | 可信大模型新挑战:噪声思维链提示下的鲁棒推理,准确率直降40%

当前,大语言模型(Large Language Model, LLM)借助上下文学习(In-context Learning)和思维链提示(Chain of Thoughts Prompting),在许多复杂推理任务上展现出了强大的能力。

然而,现有研究表明,LLM 在应对噪声输入时存在明显不足:当输入的问题包含无关内容,或者遭到轻微修改时,模型极容易受到干扰,进而偏离正确的推理方向。如图 1 左所示,Q1 中的「We know 6+6=12 and 3+7=10 in base 10」 是关于 base-9 计算的噪声信息,该信息容易误导模型输出错误的结果。

图片

图 1. 噪声问题(Noisy Questions)和噪声思维链(Noisy Rationales)的示例

已有的鲁棒研究大多侧重于噪声问题(Noisy Questions),然而,LLM 在噪声思维链(Noisy Rationales)下的推理还没有得到充分的探究。在本工作中,我们将噪声思维链定义为:包含不相关或者不准确推理步骤的思维链,如图 1 右侧 R1 中的「13 + 8 = 21」步骤,对于 base-9 计算来说,是错误的推理步骤。

这些噪声思维链通常源自 LLM 的实际应用,比如众包平台、对话系统、机器生成数据等场景,人类和机器在推理中都会不可避免地犯错,从而产生噪声思维链。因此,噪声思维链的实际影响和技术挑战不容小觑。当前,我们仍然不清楚 LLM 在面对噪声思维链提示时的鲁棒性能如何,也缺少有效的应对策略。因此,非常有必要构建一个新的数据集,用于系统评估当前 LLM 在噪声思维链场景下的鲁棒性,以及验证相应的鲁棒推理策略。

对此,我们构建了 NoRa 数据集,并进行了大量的实验评测。结果表明,GPT-3.5-Turbo、Gemini-Pro、Llama2-70B 和 Mixtral-8x7B 等开源或闭源 LLM 都极容易受到噪声思维链的影响。其中,GPT-3.5-Turbo 的准确率至多可降低 40.4%。因此,我们也呼吁大家更多地关注大模型推理的鲁棒性问题。

我们的主要贡献有如下三点:

  • 新问题:对当前流行的思维链提示技术,我们提出了尚未充分探究的噪声思维链问题(Noisy Rationales),并给出了详细的问题定义和统一的问题建模;

  • 新数据集:我们构建了 NoRa 数据集,用于评测 LLM 在噪声思维链提示下的推理鲁棒性。我们使用 NoRa 数据集对 LLM 展开系统评估,揭露了 LLM 推理的鲁棒性不足,数据去噪能力非常有限的问题;

  • 新方法:我们设计了一种简单有效的方法(CD-CoT),基于单个正确的思维链示例,去纠正噪声思维链并完成推理,并通过大量实验验证了方法的有效性。

接下来将从新问题、新数据集、新方法这三个角度,简要地介绍我们关于大模型推理鲁棒性的研究结果,相关论文已发表于 NeurIPS 2024 会议。

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值