当思维链遇上知识库:RAT 如何重塑AI大模型的推理逻辑?

部署运行你感兴趣的模型镜像

近年来,大语言模型 (LLMs) 在自然语言处理领域取得了巨大成功,尤其是在结合了思维链 (Chain-of-Thought, CoT) 等提示策略后,其在复杂推理任务上的表现更是令人瞩目。然而,LLMs 始终面临着“幻觉”问题,即生成的内容可能与事实不符或推理过程存在逻辑错误。这种现象在需要多步骤、上下文感知的长程推理任务中尤为严重。检索增强生成 (Retrieval-Augmented Generation, RAG) 作为一种缓解幻觉的有效手段,通过引入外部知识来指导 LLMs 的生成过程。然而,如何将 RAG 与 CoT 有效结合,使其在长程推理任务中发挥最大效用,仍然是一个亟待解决的问题。

近期,来自北京大学、加州大学洛杉矶分校和北京通用人工智能研究院的研究者们提出了一种名为 Retrieval Augmented Thoughts (RAT) 的新方法,旨在通过迭代地利用检索到的信息来修正 LLMs 生成的思维步骤,从而提升其在长程推理和生成任务上的表现。该论文为我们理解 LLMs 的推理机制以及如何利用外部知识增强其能力提供了新的视角。

核心思想:让思维链“自我修正”

RAT 的核心思想在于“让思维链自我修正”。它借鉴了人类解决复杂问题时的思维过程:当我们面对一个难题时,通常会先形成一个初步的思路,然后逐步推敲每个步骤,并不断地查阅资料、修正错误,最终得到解决方案。RAT 正是模拟了这一过程,将 CoT 生成的思维步骤作为“草稿”,然后利用 RAG 机制,针对每个步骤迭代地检索相关信息,并利用这些信息对思维步骤进行修正。

方法论:迭代式、因果式的检索增强

为了实现这一目标,RAT 采用了以下关键技术:

  1. 基于 CoT 的查询构建: 不同于传统的 RAG 仅利用任务提示构建查询,RAT 将 CoT 生成的思维步骤与任务提示相结合,构建出更具上下文信息的查询。这使得检索系统能够更精准地捕捉到当前步骤所需的信息。

  2. 因果式推理与逐步修正: RAT 采用了一种“因果式”的修正策略。在修正第 i 个步骤时,只利用当前步骤 Ti 和之前已修正的步骤 T*1, ..., T*i-1 来构建查询,而不是使用整个 CoT。这种策略避免了后续步骤中可能存在的错误信息干扰当前步骤的修正,确保了每一步修正都建立在可靠的基础上。

  3. 迭代式检索与修正: RAT 摒弃了传统 RAG 一次性检索所有信息的做法,而是针对每个思维步骤进行迭代式的检索和修正。这种方式更贴近人类的思维模式,也更适应长程推理任务的特点,能够逐步引导 LLMs 走向正确的解决方案。

实验验证:全面超越基线模型

为了验证 RAT 的有效性,研究者们在四个具有挑战性的长程推理任务上进行了实验,包括代码生成、数学推理、具身任务规划和创意写作。实验结果表明,RAT 在所有任务上均显著优于现有的基线方法,包括直接生成 (DIRECT)、RAG (1-shot, 5-shot) 和零样本 CoT。

具体而言,在代码生成任务上,RAT 在 HumanEval 和 HumanEval+ 数据集上分别将 pass@1 指标提升了高达 20.94% 和 18.89%;在数学推理任务上,RAT 在 GSM8K 和 GSMHard 数据集上分别将准确率提升了 8.37% 和 31.37%;在具身任务规划任务上,RAT 在 Minecraft 环境中将计划的可执行性提升到了 76.67±8.02%,将合理性提升到了 29.37;在创意写作任务上,RAT 的人工评分也显著高于其他方法。

深入剖析:消融实验揭示关键因素

为了进一步探究 RAT 的成功因素,研究者们进行了两组消融实验:

  1. 检索策略的影响: 实验结果表明,基于 CoT 的迭代式检索策略 (RAT) 明显优于仅使用问题作为查询或使用完整 CoT 作为查询的策略,证明了 RAT 检索策略的有效性。

  2. 因果推理的影响: 实验结果表明,采用因果式推理策略的 RAT 性能优于非因果式推理策略,验证了逐步修正策略的重要性。

讨论与展望:RAT 的意义与未来

RAT 的提出不仅仅是一种提升 LLMs 性能的有效方法,更重要的是,它为我们理解 LLMs 的推理机制以及如何利用外部知识增强其能力提供了新的视角。RAT 的成功表明,通过模拟人类的思维过程,引导 LLMs 进行“自我修正”,可以有效地提升其在长程推理任务上的表现,并减少幻觉现象。

然而,RAT 也存在一些局限性。例如,其性能依赖于基础 LLM 的 CoT 推理和上下文学习能力,以及外部知识库的质量。未来,我们可以探索以下几个方向:

  1. 增强弱 LLMs 的 RAT 能力: 通过微调等技术,提升弱 LLMs 的 CoT 推理和上下文学习能力,使其能够更好地应用 RAT 方法。

  2. 构建高质量的知识库: 研究如何构建和评估用于高效检索的知识库,为 RAT 提供更可靠的外部知识支持。

  3. 探索更复杂的推理机制: 将 RAT 与更复杂的推理机制 (例如树形思维) 相结合,进一步提升 LLMs 在复杂推理任务上的表现。

结语

RAT 作为一种新颖的检索增强思维方法,为 LLMs 的长程推理开辟了新的道路。它不仅在多个任务上取得了显著的性能提升,更重要的是,它启发我们思考如何更好地利用外部知识来引导 LLMs 进行更可靠、更准确的推理。相信随着研究的深入,RAT 将在推动 LLMs 走向通用人工智能的道路上发挥越来越重要的作用。

欢迎关注公众号“AI演进”,持续学习和更新AI知识。

您可能感兴趣的与本文相关的镜像

Qwen3-VL-30B

Qwen3-VL-30B

图文对话
Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型,这一代在各个方面都进行了全面升级:更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力,以及更强的代理交互能力

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

明哲AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值