Interleaving Retrieval with Chain-of-Thought Reasoning for ... 论文阅读

最新推荐文章于 2025-08-05 11:24:58 发布

PD我是你的真爱粉

最新推荐文章于 2025-08-05 11:24:58 发布

阅读量1.8k

点赞数 31

CC 4.0 BY-SA版权

分类专栏：笔记文章标签：论文阅读

本文链接：https://blog.youkuaiyun.com/weixin_52185313/article/details/139898824

Interleaving Retrieval with Chain-of-Thought Reasoning for Knowledge-Intensive Multi-Step Questions 论文阅读

文章目录

- Interleaving Retrieval with Chain-of-Thought Reasoning for Knowledge-Intensive Multi-Step Questions 论文阅读
Abstract
介绍
- 相关工作
- - 开放域QA提示(CoT相关)
  - 监督的多步骤开放域QA
主要内容
- 链式思维推理与检索的交替使用(Interleaving Retrieval with Chain-of-Thought Reasoning)
- 问题回答阅读器(Question Answering Reader)
实验
结论

Abstract

基于提示的大型语言模型（LLMs）在生成多步骤问题回答（QA）的自然语言推理步骤或链式思维（CoT）方面表现出惊人的强大。然而，当所需的知识在LLM中不可用或其参数未更新时，它们会遇到困难。虽然使用问题从外部知识源中检索相关文本可以帮助LLMs，但我们观察到这种一步检索和阅读的方法对于多步骤QA是不足的。在这里，检索的内容取决于已经推导出的内容，而推导的内容可能又取决于之前检索的内容。为了解决这个问题，我们提出了IRCoT，一种新的多步骤QA方法，它将检索与CoT中的步骤（句子）交替进行，通过CoT指导检索，并反过来使用检索结果改进CoT。使用IRCoT与GPT-3相结合，在四个数据集（HotpotQA、2WikiMultihopQA、MuSiQue和IIRC）上的检索（最多提高21点）以及下游QA（最多提高15点）表现出显著提升。我们在分布外（OOD）设置以及使用更小的模型如Flan-T5-large时观察到了类似的显著增益，而无需额外训练。IRCoT减少了模型幻觉，产生了事实更准确的CoT推理。

大型语言模型能够通过适当提示生成逐步的自然语言推理步骤，即所谓的链式思维（CoT），来回答复杂的问题（Wei等，2022）。当回答问题所需的所有信息要么作为上下文提供（例如，代数问题），要么假设存在于模型的参数中（例如，常识推理）时，这种方法是成功的。

代码、数据和提示可在 https://github.com/stonybrooknlp/ircot 获得

介绍

然而，对于许多开放域问题，所有必需的知识并不总是可用或最新的，并且从外部来源检索知识是有益的（Lazaridou等，2022；Kasai等，2022）。

虽然基于问题的单次检索可以成功地为许多事实类任务（Lewis等，2020；Guu等，2020；Borgeaud等，2022；Izacard等，2022）增加相关知识，但这种策略在处理更复杂的多步骤推理问题时有明显的局限性。对于这些问题，通常需要检索部分知识，进行部分推理，并根据部分推理的结果进一步检索，并迭代进行。

例如，考虑下图中所示的问题，“丢失重力在哪个国家制造？”使用问题（尤其是过山车“丢失重力”）作为查询检索到的维基百科文档并没有提到丢失重力的制造地。相反，我们必须首先推断它是由一家名为Mack Rides的公司制造的，然后再进行进一步的检索，以获得指向制造国的证据。

在这里插入图片描述