Navigate through Enigmatic Labyrinth A Survey of Chain of Thought Reasoning: Advances, Frontiers and-优快云博客

论文地址：思维链综述

摘要
推理作为人类智能中不可或缺的核心认知过程，已在人工智能领域引发广泛关注。值得注意的是，近期研究表明，思维链提示（chain-of-thought prompting）能显著提升大型语言模型（LLM）的推理能力，这一发现已吸引学术界与产业界的广泛关注。本文对相关研究进行了系统性梳理，通过构建兼具新颖视角的细致分类体系，总结了该领域的先进方法。此外，本文深入探讨了当前研究前沿，明确了面临的挑战与未来发展方向，为后续研究提供参考。同时，本文还对该领域的开放性问题展开了讨论。我们期望本文能为初学者提供入门指引，并推动该领域的未来研究。相关资源已公开于 https://github.com/zchuz/CoTReasoning-Survey。

1 引言

在人类认知领域，推理堪称核心支柱，它对于我们理解世界、形成决策至关重要。随着预训练规模的持续扩大（Brown 等人，2020；OpenAI，2023；Touvron 等人，2023a、b），大型语言模型（LLMs）在众多下游任务中展现出日益强大的能力（Wei 等人，2022a；Schaeffer 等人，2023；Zhou 等人，2023c）。近期，研究人员发现，通过上下文学习，大型语言模型能够具备逐步推理的能力，这一现象被称为思维链（CoT）推理。研究普遍表明，思维链提示策略能显著提升大型语言模型的推理性能，尤其在复杂任务中表现突出（Wei 等人，2022b；Cobbe 等人，2021；Geva 等人，2021）。

图1展示了思维链推理的一个示例。思维链推理并非直接给出答案，而是提供一条逐步推进的推理路径。具体而言，它将复杂问题拆解为可处理的多个步骤（思考过程），简化整体推理流程，并在各个推理步骤之间建立关联（链状结构），确保不遗漏关键条件。此外，思维链推理提供了可观测的推理过程，使用户能够理解模型的决策轨迹，进而提升最终答案的可信度与可解释性。
在这里插入图片描述

得益于思维链提示策略的卓越表现，它已在学术界和工业界引发广泛关注，逐渐发展成为提示工程领域中一个独立的研究分支（Liu 等人，2023d；Qiao 等人，2023）。同时，它也成为人工智能自主智能体体系中的关键组成部分（Wang 等人，2023h；Xi 等人，2023）。然而，目前相关研究仍缺乏系统性的综述与分析。为填补这一空白，本研究旨在对思维链推理进行全面、细致的剖析。具体而言，本文将探讨更广泛范畴的思维链推理，我们称之为广义思维链（XoT）。广义思维链推理的核心理念是通过逐步推理的方式，层层拆解复杂问题。

本文的贡献可总结如下：
（1）全面综述：这是首篇专门针对广义思维链（XoT）推理的综合性综述；
（2）精细分类：提出一套细致的分类体系（如图2所示）；
（3）前沿与未来：探讨该领域的新兴前沿方向，梳理面临的挑战，并指明未来研究方向；
（4）资源共享：公开相关研究资源，以助力科研社区的后续研究。

综述结构安排如下：首先介绍研究背景与基础预备知识（第2节）；随后从不同角度呈现相关基准测试（第3节）与先进方法（第4节）；进而探讨前沿研究方向（第5节），并概述当前挑战与未来发展趋势（第6节）；最后，在附录A.2中对开放问题展开进一步讨论。

2 背景与预备知识

2.1 研究背景

过去几年间，随着预训练规模的持续扩大（Brown 等人，2020；Scao 等人，2022；Touvron 等人，2023b；Zhao 等人，2023b），语言模型涌现出诸多新能力，例如上下文学习（Wei 等人，2022a；Brown 等人，2020）与思维链推理（Wei 等人，2022b）。在此趋势下，“预训练+提示”范式已逐渐取代“预训练+微调”，成为自然语言处理领域的新主流（Qiu 等人，2020；Zhao 等人，2023b）。

2.2 预备知识

本节将介绍标准提示策略与思维链推理的基础概念。参考 Qiao 等人（2023）的研究，我们定义如下符号：问题 ( Q )、提示 ( T )、概率语言模型 ( p_{\text{LM}} ) 以及预测结果 ( A )。

首先考虑少样本标准提示场景：提示 ( T_{\text{SP}} ) 包含指令 ( I ) 和少样本演示样例（若干个问答对）。模型以问题和提示为输入，输出预测答案 ( A )，具体如公式（1）（2）所示：

$T_{\text{SP}} = \{I, (x_1, y_1), \cdots, (x_n, y_n)\} \tag{1}$

$\mid T, Q) = \prod_{i=1}^{|A|} p_{\text{LM}} (a_i \mid T, Q, a_{<<i}) \tag{2}$

其次考虑少样本设置下的思维链提示：提示 ( T_{\text{CoT}} ) 包含指令、问题、答案以及推理依据 ( e_i )。在思维链推理中，模型不再直接生成答案，而是先输出逐步推进的推理轨迹 ( R )，再给出最终答案 ( A )，具体如公式（3）-（6）所示：

$T_{\text{CoT}} = \{I, (x_1, e_1, y_1), \cdots, (x_n, e_n, y_n)\} \tag{3}$

$\mid T, Q) = p(A \mid T, Q, R) \cdot p(R \mid T, Q) \tag{4}$

$\mid T, Q) = \prod_{i=1}^{|R|} p_{\text{LM}} (r_i \mid T, Q, r_{<<i}) \tag{5}$

$\mid T, Q, R) = \prod_{j=1}^{|A|} p_{\text{LM}} (a_j \mid T, Q, R, a_{<j}) \tag{6}$

2.3 思维链推理的优势

作为一种新型推理范式，思维链推理具备多方面优势：
（1）提升推理性能：将复杂问题拆解为可处理的步骤，并建立步骤间的关联，从而降低推理难度、提升推理效果；
（2）提供可解释性：输出可观测的推理轨迹，使用户能够理解模型的决策过程，让推理流程透明化、可信赖；
（3）促进人机协作：细粒度的推理轨迹为用户与系统的交互提供了基础，允许用户调整模型的执行路径，进而推动基于大型语言模型的自主智能体发展。

总结

背景层面：随着语言模型预训练规模扩大，“预训练+提示”已成为NLP领域主流范式，思维链推理是该范式下的重要新能力，依托上下文学习实现。
概念区分：
- 标准提示（少样本）：提示由「指令+问答对」组成，模型直接从“问题+提示”生成答案，公式（1）定义提示结构，公式（2）描述答案的逐字符生成概率（依赖前文字符）；
- 思维链提示（少样本）：提示额外增加「推理依据」，模型先生成逐步推理轨迹 ( R )，再输出答案 ( A )，公式（3）-（6）明确了“推理轨迹+答案”的联合概率计算逻辑（先算推理轨迹概率，再基于轨迹算答案概率）。
核心价值：思维链推理的关键优势是提升复杂任务推理效果、让模型决策过程可解释，以及为后续人机协作和自主智能体开发奠定基础。

3 基准测试

本节将简要概述用于评估推理能力的基准测试，包括数学推理、常识推理、符号推理、逻辑推理和多模态推理。基准测试概况如表1所示，更多详细信息请参见附录B。

数学推理（Mathematical Reasoning）是人类智能的基础，在问题解决、决策制定和世界认知中发挥着关键作用。它常被用于评估大型语言模型的通用推理能力（Patel 等人，2021；Cobbe 等人，2021；Hendrycks 等人，2021b；Mishra 等人，2022a）。

常识推理（Commonsense Reasoning）是日常生活交互和世界感知的核心，用于评估语言模型对世界的认知能力（Talmor 等人，2019、2021；Geva 等人，2021）。

符号推理（Symbolic Reasoning）剥离语义层面的干扰，是测试语言模型模拟原子操作能力的重要场景（Wei 等人，2022b；Srivastava 等人，2022；Suzgun 等人，2023）。

逻辑推理（Logical Reasoning）至关重要，它是理性思考、可靠问题解决和可解释决策的基石（Liu 等人，2020；Yu 等人，2020；Tafjord 等人，2021；Han 等人，2022）。

多模态推理（Multimodal Reasoning）将文本思维与现实世界的感官体验（如视觉场景、听觉信息等）无缝融合，以实现对信息更丰富、更全面的理解（Zellers 等人，2019；Park 等人，2020；Xiao 等人，2021；Lu 等人，2022；Chen 等人，2023c）。

总结

本节核心：明确了评估思维链推理能力的5类核心基准测试，覆盖不同推理场景，为后续方法评估提供统一参照。
5类基准测试定位：
- 数学推理：测通用推理能力，是基础评估维度；
- 常识推理：测世界认知能力，贴近日常交互场景；
- 符号推理：剥离语义，专注测试原子操作模拟能力；
- 逻辑推理：测理性思考与决策的底层逻辑能力；
- 多模态推理：融合文本与多感官信息，测跨模态理解能力。
补充说明：详细的基准测试细节（如数据集规模、任务类型）需参考附录B，本节仅提供分类概览。

4 先进方法

本节从三个视角探讨广义思维链（XoT）的先进方法：提示构建（4.1节）、拓扑变体（4.2节）和增强方法（4.3节）。分类体系如图2所示。
在这里插入图片描述

4.1 广义思维链提示构建

基于人类构建思维链提示的投入程度，我们将构建方法分为三类：1）手动式广义思维链（Manual XoT）、2）自动式广义思维链（Automatic XoT）和3）半自动式广义思维链（Semi-automatic XoT）。

4.1.1 手动提示

Wei等人（2022b）首次提出思维链提示（少样本思维链），通过人工标注自然语言形式的推理依据，引导模型进行逐步推理。此外，Fu等人（2023a）发现，使用复杂的推理链作为演示样例能进一步提升推理性能。然而，自然语言形式的推理存在推理不一致问题。为减少推理过程中的中间错误，PAL（Gao等人，2023）、PoT（Chen等人，2022a）、MathPrompter（Imani等人，2023）和NLEP（Zhang等人，2023d）采用编程语言形式的推理依据，将问题求解转化为程序生成，通过外部程序执行器获得确定答案。尽管手动式广义思维链表现出更优性能，但推理依据的标注会显著增加成本，且存在演示样例选择难题。

4.1.2 自动提示

部分研究设计特定指令以在零样本设置下激发思维链推理，例如在问题后追加“让我们逐步思考”（Kojima等人，2022）。此外还有其他类型的指令，包括编写程序求解问题（Chen等人，2022a）、推理前制定计划（Wang等人，2023i）、基于任务信息生成元指令（Crispino等人，2023）以及角色扮演（Kong等人，2023a）。

然而，由于缺乏明确演示样例的指导，基于指令的方法稳定性极差。另一类研究基于自动生成的推理依据（通常通过零样本思维链）进行少样本推理，以提升推理稳定性。这些方法聚焦于选择合适的演示样例：Zhang等人（2023h）通过聚类选择多样化的推理依据，Zou等人（2023）基于问题模式构建演示样例以提升泛化性，Wan等人（2023）采用答案熵作为选择指标，Xu等人（2023）使用吉布斯采样迭代选择演示样例。

4.1.3 半自动提示

半自动方法在基于少样本学习的自动式广义思维链基础上，融入少量人工标注的推理依据以获取监督信号。其核心是通过自举法获取高质量推理依据，并选择合适的演示样例辅助推理。Shao等人（2023b）通过交替的正向和反向合成过程生成高质量推理依据，Pitis等人（2023）在遇到复杂问题时迭代扩展样例，以缓解人工监督有限的问题。另一方面，部分研究优化演示样例选择：Shum等人（2023）和Lu等人（2023b）利用策略梯度优化学习演示样例选择策略，Ye和Durrett（2023）在开发集上搜索，并通过两个代理指标选择合适的演示样例。

4.1.4 三种方法的优缺点

手动提示依赖高质量的推理依据标注，因此性能更优，但存在人工成本高、领域迁移困难等缺点。相比之下，自动提示无需人工成本，且便于领域自由迁移，但由于缺乏监督信号，存在误差大、稳定性差的问题。半自动提示实现了专门的平衡，在性能和成本之间达成权衡，更适用于下游应用场景。

4.2 广义思维链拓扑变体

广义思维链的发展催生了多种拓扑变体¹。本节将深入探讨广义思维链的拓扑变体：链状结构、树状结构和图状结构。
在这里插入图片描述

链状结构

推理依据的描述格式对推理执行影响显著。PAL（Gao等人，2023）和PoT（Chen等人，2022a）采用编程语言描述推理过程，将问题求解转化为代码生成。类似地，形式逻辑描述语言也被用于刻画逻辑推理（Olausson等人，2023；Pan等人，2023；Ye等人，2023a）。上述方法将思维生成与执行解耦，从而消除推理不一致误差。此外，算法描述（Sel等人，2023）可提供高层推理框架而非细节，赋予模型全局思考能力。

树状结构

链状结构本质上限制了探索范围。通过融入树状结构和搜索算法，模型在推理过程中能够进行广泛探索和回溯（Long，2023；Yao等人，2023b），如图3（e）所示。Chen等人（2024）通过迭代探索和评估多条思维树，进一步提升推理性能。得益于这种探索能力，树状变体已具备初步的面向全局最优的全局规划能力。同时，Mo和Xin（2023）、Cao等人（2023）分别基于蒙特卡洛丢弃法和生成可能性引入不确定性度量，从而更准确地评估中间推理过程。Yu等人（2024）采用自底向上的方式构建类比子问题树。此外，Ning等人（2023）先生成推理草稿，通过并行求解树状结构的子问题加速推理。然而，基于树状结构的方法受限于明确的问题分解和状态转移要求，导致任务泛化性存在局限。

图状结构

图状结构引入循环和多对一连接，能够更好地建模子问题聚合和自我验证（Besta等人，2023；Lei等人，2023a），如图3（f）所示。在处理复杂问题时，图状结构优于树状结构方法。但图状结构依赖专门设计的状态分解，泛化性较差。为解决这一问题，Jiang等人（2023a）通过提示在推理过程中建立隐式图，避免显式拓扑结构的约束，从而泛化到各类多步推理任务。

复杂的拓扑结构引入了精细的控制流，有助于大型语言模型解决更难的问题。然而，这种复杂性也限制了这些方法在通用推理中的应用，这是未来研究需要解决的重大挑战。

4.3 广义思维链增强方法

本节介绍五种广义思维链推理增强方法，包括验证与优化（4.3.1节）、问题分解（4.3.2节）、知识增强（4.3.3节）、自集成（4.3.4节）和高效推理（4.3.5节）。

4.3.1 验证与优化

大型语言模型容易产生幻觉现象，表现为推理过程中的事实错误和忠实性错误（Huang等人，2023b）。融入验证与优化机制是缓解该现象的有效策略。本节主要聚焦于缓解忠实性错误，事实错误将在后续知识增强部分（4.3.3节）单独讨论。
在这里插入图片描述
可基于大型语言模型提供的关键反馈优化推理过程。Paul等人（2024a）训练一个小型评判模型提供结构化反馈，但由于模型规模限制，反馈质量有限。Madaan等人（2023）利用自身反馈进行迭代自优化，Li等人（2023g）在步骤级别提供更细粒度的反馈，Shinn等人（2023）进一步扩展该方法，融入长短期记忆以提供更简洁的反馈。然而，近期研究表明，大型语言模型可能无法解决超出自身能力范围的问题（Kadavath等人，2022；Yin等人，2023），这对自反馈的有效性提出了质疑（Huang等人，2024a）。为弥补这一缺陷，部分研究融入外部反馈（Gou等人，2024a；Nathani等人，2023），或对优化后的推理进行二次验证（Shridhar等人，2023）。

另一方面，逻辑推理结构也非常适合验证。Ling等人（2023）设计了一种名为“自然程序”的演绎推理形式，确保结论源于指定前提。Wu等人（2024）应用演绎过滤器验证问题与推理链之间的蕴含关系。部分研究在束搜索解码阶段进行逐步验证：Xie等人（2023）将演绎推理的对数概率作为搜索准则，Zhu等人（2024a）训练演绎判别器用于验证。此外，反向（溯因）推理在检测推理不一致方面表现出色，它基于推理链重构问题中的条件或变量，发现不一致之处，从而优化推理（Xue等人，2023；Weng等人，2022；Jiang等人，2023b）。

基于大型语言模型的推理容易产生幻觉，中间步骤的反馈对优化推理至关重要。然而，当前反馈信号的获取仍存在诸多不足，需要进一步研究。

4.3.2 问题分解

广义思维链的核心理念是逐步求解问题。但原始思维链并未明确分解问题，难以应对复杂问题。为解决这一问题，部分方法通过逐步处理简单子问题来求解复杂问题。
在这里插入图片描述

L2M（Zhou等人，2023b）首先以自顶向下的方式将问题分解为子问题，然后逐一求解子问题，并利用其解辅助后续子问题的求解。Dua等人（2022）采用与L2M类似的方法，但利用前序子问题的解迭代分解问题。Khot等人（2023）设计了一个模块化任务共享库，为不同类别的子问题定制更有效的解决方案。Huang等人（2024b）将问题分解为以QDMR表示的有向无环图，然后基于图依赖关系进行逐步推理。在多跳推理中，迭代分解已成为常见做法（Wang等人，2022；Press等人，2023；Trivedi等人，2023）。此外，部分方法通过监督训练获得专门的分解器，而非依赖大型语言模型本身（Li等人，2023f；Junbing等人，2023）。然而，在处理表格推理时，求解子问题也可能面临挑战，尤其是在处理大型表格时。为解决这一问题，部分方法同时分解问题和表格（Ye等人，2023b；Cheng等人，2023；Nahid和Rafiei，2024）。

自底向上聚合也是一种可行的解决方案，其探索空间更小。Qi等人（2023）采用苏格拉底提问法进行递归自提问以求解复杂问题，Zhang等人（2024）类似地将复杂问题的条件分解为小部件，并自底向上求解。

需要注意的是，分解和聚合都高度依赖合理的问题划分，反之，划分不当可能会产生适得其反的效果。

4.3.3 知识增强

在这里插入图片描述

在处理知识敏感型任务时，大型语言模型经常出现事实错误。引入外部知识或挖掘模型内部知识有助于缓解这一问题。部分方法明确利用模型的内在知识：例如，Dhuliawala等人（2023）、Ji等人（2023）、Zheng等人（2024）提示模型输出其参数化知识，然后基于该知识进行推理。此外，Zhang等人（2023f）提示模型对内部知识进行归纳推理，得出更具一般性的结论。Liu等人（2023c）融入强化学习优化内省式知识接地推理。同时，Li和Qiu（2023）利用模型的推理轨迹构建记忆库，在需要时选择相关演示样例。

外部知识通常比参数化知识更可靠。Li等人（2023f）、Wang等人（2023e）基于问题生成查询，利用知识库作为外部知识。在此基础上，Wang等人（2023c）为检索到的知识引入验证步骤，进一步确保知识准确性。然而，在面对多跳推理时，直接使用问题进行检索可能不够充分。因此，Press等人（2023）、Trivedi等人（2023）、Shao等人（2023a）、Yoran等人（2023）分解问题，并迭代使用子问题进行更精准的检索。

4.3.4 自集成

在这里插入图片描述

生成过程中的采样引入了不确定性，这为通过自集成提升性能创造了可能。Cobbe等人（2021）训练一个验证器对答案进行排序，Hu等人（2024a）利用大型语言模型对自身预测进行自排序。SC（Wang等人，2023m）基于多个样本的答案进行多数投票，Fu等人（2023a）在SC的基础上提出了一种基于复杂性的投票策略。大量实践证据表明，自集成是提升性能的有效方法。然而，基于答案的集成未考虑中间步骤。对此，Miao等人（2024）、Yoran等人（2023）、Khalifa等人（2023）在步骤级别优化集成，Yin等人（2024）引入分层答案聚合。另一个问题是概率采样提供的多样性有限。为克服这一限制，Naik等人（2023）使用不同的指令，Liu等人（2023e）集成多种广义思维链变体，Qin等人（2023）利用多语言推理链进行集成。此外，多智能体辩论（MAD）框架也可视为异构集成（Liang等人，2023；Du等人，2023；Wang等人，2023b）。

自集成作为一种简单有效的方法，已广受青睐。然而，在性能提升的同时，推理成本也成倍增加，这限制了其广泛应用。

4.3.5 高效推理

大型语言模型的推理通常效率低下，例如延迟高、标注成本高、推理成本高。为加速推理，Ning等人（2023）并行分解问题并同时处理，Zhang等人（2023b）生成草稿以跳过推理过程中的中间层，Leviathan等人（2023）、Chen等人（2023a）引入投机解码，利用更小的模型实现更快的推理。Diao等人（2023）标注高不确定性样本以降低人工成本，Aggarwal等人（2023）动态调整采样频率以降低推理成本。未来研究应聚焦于高效推理，以推动大型语言模型的广泛应用。

总结

本节框架：从“提示构建-拓扑结构-增强方法”三个维度系统梳理了广义思维链（XoT）的先进技术，形成了完整的方法体系，为实际应用提供了多维度选择。
核心方法解析：
- 提示构建：分为手动（高质量但成本高）、自动（零成本但不稳定）、半自动（平衡性能与成本）三类，按需选择即可；
- 拓扑变体：链状（基础款，解耦思维与执行）、树状（支持探索回溯，有全局规划能力）、图状（适配复杂子问题聚合，泛化性受限），复杂度递增但适用场景更聚焦；
- 增强方法：涵盖验证优化（缓解幻觉）、问题分解（拆解复杂问题）、知识增强（修正事实错误）、自集成（提升稳定性）、高效推理（降低成本），针对性解决思维链推理的核心痛点。
关键权衡：所有方法均存在“性能-成本-泛化性”的权衡（如自集成提升性能但增加推理成本，图状结构适配复杂问题但泛化性差），实际应用需根据任务场景（简单/复杂、知识敏感/非敏感）灵活选择。

5 研究前沿

5.1 工具使用

大型语言模型（LLMs）在获取新闻、执行计算和与环境交互方面面临困难。以往研究赋予了大型语言模型使用外部工具的能力，增强了其推理性能，并使其能够与（多模态）外部环境进行交互（Parisi等人，2022；Schick等人，2023；Shen等人，2023a）。

然而，这些方法在支持多工具调用和修正查询错误方面存在局限性。为解决这一问题，ReAct（Yao等人，2023c）和Reflexion（Shinn等人，2023）融合了推理与行动的优势，实现互补。ART（Paranjape等人，2023）利用任务库选择相关工具和推理演示样例。MM-REACT（Yang等人，2023b）进一步融入视觉专家，以支持多模态推理与行动。

上述研究聚焦于利用外部工具弥补大型语言模型原本缺失的能力，从而提升其在各类领域的性能。工具调用促进了与外部源的交互，使其能够收集额外信息，而广义思维链（XoT）则实现了对推理过程的有效激发、跟踪和行动优化。

5.2 规划能力

大型语言模型难以对复杂目标提供准确响应，这需要通过规划将复杂目标分解为子任务，并跟踪执行过程。规划可通过代码或定义语言进行描述：Sun等人（2023）生成Python代码控制智能体，并基于执行反馈迭代优化规划；Liu等人（2023a）、Dagan等人（2023）利用规划领域定义语言（PDDL）（Gerevini，2020）描述规划流程，PDDL有助于分解复杂问题，并在将结果转换为自然语言之前利用专门模型进行规划；Zhou等人（2023d）将自优化（Madaan等人，2023）与PDDL相结合，在长时序列任务中实现了更高的成功率。

除预定义规划外，许多研究采用搜索算法进行动态规划和行动空间探索：思维树（Tree-of-Thought）通过深度优先搜索（DFS）或广度优先搜索（BFS）探索问题，并跟踪和更新中间状态（Yao等人，2023b）；RAP和LATS在规划中融入基于推理轨迹的蒙特卡洛树搜索（Hao等人，2023a；Zhou等人，2023a）；ToolChain通过启发式A搜索实现更高效的探索（Zhuang等人，2024）。

具备强大推理能力的大型语言模型能够设计实现复杂目标的策略。此外，规划、推理、记忆与工具使用的融合，是构建基于大型语言模型的自主智能体的核心基石。

5.3 推理能力蒸馏

在边缘计算等低资源场景中，蒸馏技术为大型语言模型的部署提供了可能。部分方法采用自蒸馏实现自我提升，无需外部监督：Huang等人（2023a）利用自一致性从未标注数据中生成推理链，随后进行微调，提升了模型的通用推理能力；Zelikman等人（2022）通过自循环自举法增强语言模型的推理能力。

尽管思维链（CoT）展现出强大的推理性能，但它主要在大规模大型语言模型中涌现，在小型模型中的应用受限。Magister等人（2023）发现，小型模型在思维链推理数据上微调后，也能具备逐步推理能力。此后，众多研究尝试将大型语言模型的逐步推理能力蒸馏到小型模型中：Hsieh等人（2023b）利用自一致性过滤预测结果，从大型语言模型中蒸馏高质量推理链；Ho等人（2023）、Li等人（2023c）发现，每个实例采样多条推理链对提升学生模型（待蒸馏的小型模型）的推理能力至关重要；SCOTT（Wang等人，2023j）利用对比解码（Li等人，2023e；O’Brien和Lewis，2023）和反事实推理目标解决捷径问题；Li等人（2024）通过LoRA混合专家蒸馏，提升了模型在未见过任务上的推理泛化性。

近期研究发现，通过偏好数据优化可进一步提升小型模型的推理能力：DialCoT（Han等人，2023）将推理步骤分解为多轮对话，并利用PPO（近端策略优化）优化正确的推理轨迹；Wang等人（2023k）、Feng等人（2024）在自动生成的数据上训练奖励模型，用于对大型语言模型的推理轨迹进行排序，随后通过PPO优化小型模型；Xie等人（2024）利用蒙特卡洛树搜索采样和评分推理轨迹，动态生成偏好数据，并通过DPO（直接偏好优化）进行在线偏好优化。

由于代码是优秀的推理中间表示，Zhu等人（2023）将程序辅助推理能力蒸馏到小型模型中。同时，部分研究发现，从自然语言和代码两种格式中蒸馏推理链可实现进一步性能提升（Li等人，2023a；Zhu等人，2024b）。除常规推理外，Yang等人（2024a）尝试蒸馏表格推理能力，Zhao等人（2024b）致力于赋予小型模型检索增强推理能力。

这些研究采用了相同的范式：从推理能力更优的大型模型中生成推理链，进而蒸馏到小型模型中。但值得注意的是，语言模型的多维度能力之间存在复杂的权衡关系，蒸馏特定任务的推理能力可能会对模型的通用性能产生不利影响（Fu等人，2023b）。

总结

三大前沿方向：本节聚焦广义思维链（XoT）的延伸应用，核心围绕“工具使用-规划能力-推理蒸馏”展开，均服务于提升大型语言模型的实用价值和落地能力。
各方向核心逻辑：
- 工具使用：通过融合外部工具弥补模型原生缺陷（如实时信息获取、计算），与XoT结合实现“推理-行动-反馈”闭环；
- 规划能力：针对复杂目标，通过代码/PDDL预定义规划或搜索算法动态规划，分解任务并跟踪执行，是构建自主智能体的关键；
- 推理蒸馏：解决低资源场景部署问题，将大型模型的推理能力迁移到小型模型，主流通过“生成推理链+微调/偏好优化”实现，需平衡任务专用性与通用性能。
共性目标：三个方向均旨在突破大型语言模型的固有局限（能力缺失、复杂任务处理弱、部署成本高），推动其从“单纯推理”向“实用智能体”演进，同时兼顾落地可行性。

6 未来方向

尽管广义思维链（XoT）推理在众多任务中展现出卓越性能，但仍存在一些挑战需要进一步研究。

6.1 多模态推理

当前广义思维链研究大多聚焦于纯文本领域。然而，与现实世界交互需要多模态能力。为推进相关研究，研究者提出了SciQA（Lu等人，2022）和CURE（Chen等人，2023c）等基准测试，以强调多模态思维链推理。通过融合视觉和语言特征进行微调，Zhang等人（2023i）、Wang等人（2023g）赋予模型多模态思维链推理能力，Yao等人（2023d,a）进一步融入图状结构建模多跳关系。其他方法则将图像转换为文本描述，利用大型语言模型进行基于提示的推理（Yang等人，2023b；Zheng等人，2023b）。然而，视觉-语言模型的能力局限限制了其在多步推理中的性能（Alayrac等人，2022；Li等人，2023b；Peng等人，2023）。

未来研究仍需解决以下关键挑战：（1）视觉-文本交互：如何有效融合视觉和文本特征，而非仅依赖文本描述？（2）利用视觉-语言大型模型（VLLMs）：如何将基于大型语言模型的推理技术更好地应用于多模态领域？（3）视频推理：如何扩展到具有复杂时间依赖关系的视频推理场景？

6.2 忠实推理

大量研究表明，大型语言模型常常存在不忠实推理问题，例如事实错误和推理不一致。为解决事实错误，一种常见方法是检索增强（Trivedi等人，2023；Zhao等人，2023a），但这需要合适的检索时机和准确的检索结果。与事实错误相比，推理不一致更难识别（Paul等人，2024b）。常见的检测方法包括演绎逻辑（Jiang等人，2023b；Xue等人，2023；Ling等人，2023）、后处理（He等人，2023a；Lei等人，2023b）和基于评判器的方法（Madaan等人，2023；Nathani等人，2023）。其中，神经符号推理（Chen等人，2022a；Olausson等人，2023）是减少推理不一致的常用方法，问题分解（Radhakrishnan等人，2023）也在一定程度上证明了其有效性。此外，Zhang等人（2023c）、Lanham等人（2023）从实证角度探究了影响推理忠实性的因素。

忠实推理面临两个重要挑战：（1）检测：如何准确识别不忠实推理？（2）修正：如何获取准确反馈，并基于该反馈进行正确的推理优化？

6.3 理论视角

迄今为止，思维链（CoT）和上下文学习（ICL）背后的机制尚未得到清晰解释。部分研究通过实证探索思维链和上下文学习在推理中的作用，提供了实用见解（Wang等人，2023a；Madaan和Yazdanbakhsh，2022；Tang等人，2023）。另一类研究则从理论角度展开探索：Li等人（2023h）、Feng等人（2023）、Merrill和Sabharwal（2023）、Prystawski等人（2023）探究了思维链为何能提升推理能力，Wu等人（2023b）、Tutunov等人（2023）、Hou等人（2023）、Wang等人（2023f）从特征层面（信息流、注意力、变量等）分析其机制。此外，已有研究对推理能力的涌现机制进行了初步探索（Schaeffer等人，2023；Zhou等人，2023c）。

目前，对思维链理论的探索仍停留在表面层面，仍有一些开放问题需要深入研究：（1）推理涌现能力是如何产生的？（2）与标准少样本提示相比，思维链通过何种方式提升推理性能？

总结

三大核心挑战：本节聚焦广义思维链推理未解决的关键问题，围绕“多模态扩展、推理忠实性、理论机制”三个维度展开，指明了未来研究的核心方向。
各方向核心逻辑：
- 多模态推理：当前局限于“文本为主”，未来需突破视觉-文本深度融合、多模态模型适配、视频推理等瓶颈，以适配现实世界交互场景；
- 忠实推理：核心痛点是“事实错误+推理不一致”，需同时解决“准确检测不忠实推理”和“基于有效反馈修正推理”两大问题，是提升模型可靠性的关键；
- 理论视角：现有研究多为实证探索，缺乏对“推理涌现机制”“思维链提升推理的本质原因”等核心问题的深层解释，理论突破能为方法创新提供底层支撑。
整体目标：三个方向均旨在解决广义思维链推理的“能力边界、可靠性、可解释性”问题，推动其从“实验室高性能”走向“现实场景可信赖、可解释”。

7 讨论

本文深入探讨了思维链推理相关的开放问题，详细讨论见附录A.2。讨论内容涵盖三个主题：（a）思维链推理能力如何随大规模预训练而涌现？（b）如何为模型的推理与决策提供准确反馈？（c）思维链推理对基于大型语言模型（LLM）的自主智能体及通用人工智能（AGI）的意义。

A.2 进一步讨论

开放问题：思维链（CoT）能力是否源于代码数据预训练？这是一个悬而未决的问题，最初由Fu和Khot（2022）提出并在研究社区广泛讨论。早期，GPT-3（Brown等人，2020）（davinci版本）和OPT（Zhang等人，2022b）等大型语言模型通常不具备思维链能力，且它们在预训练过程中未使用或仅融入少量（非专门的）代码数据。近期的模型在预训练阶段往往会纳入专门的代码数据，例如GPT-3.5、LLaMA2（Touvron等人，2023b）（预训练中约包含8%的代码数据），且这些模型均具备强大的思维链能力。此外，Gao等人（2023）、Chen等人（2022a）发现，使用编程语言形式的推理依据能显著提升模型在复杂推理任务上的性能。种种迹象表明，思维链能力的来源可能在于预训练阶段的代码数据。

近期，Ma等人（2024）探究了不同训练阶段的代码数据对大型语言模型的影响，得出了首个有定量实验结果支持的定性结论。他们发现，在预训练阶段混合代码数据能增强模型的通用推理能力，而在指令微调阶段混合代码数据则会赋予模型特定任务的推理能力。

开放问题：如何为模型的推理或决策提供精准反馈？在处理多步推理或决策任务时，中间步骤往往容易出现错误，若这些错误未能及时修正，可能会引发连锁错误。目前，获取反馈的主要方法包括模型自身反馈（Madaan等人，2023；Shinn等人，2023）、其他模型反馈（Paul等人，2024a）、外部环境反馈（Nathani等人，2023；Gou等人，2024a）以及基于强化学习的反馈（Uesato等人，2022；Lightman等人，2024；Ma等人，2023）。然而，部分研究对大型语言模型提供自我反馈的能力提出了质疑（Huang等人，2024a；Jiang等人，2024）。总体而言，当前方法存在一些问题：（1）模型自身生成的反馈可靠性如何？（2）其他语言模型提供的反馈与自我反馈是否存在本质区别？（3）反馈质量是否仍受限于模型的能力边界？（4）如何预定义各类场景的外部反馈，且如何将其扩展到不同场景？

综上所述，目前尚无完全令人满意的反馈方法，关于如何从模型的中间推理过程中准确获取反馈信号，仍需更多研究关注。

讨论：迈向（早期）通用人工智能（AGI）通用人工智能一直是人工智能领域长期以来的终极愿景。近期关于基于大型语言模型的自主智能体的研究，已成功展示了初级通用人工智能的初步实现。

推理与交互的协同作用：大型语言模型具备强大的语言理解能力，可通过插件（工具、知识库查询、搜索引擎等）以文本交互的方式与外部世界进行交互（Schick等人，2023；Shen等人，2023a；Qin等人，2024）。结合强大的推理能力，大型语言模型在各类规划和决策任务中取得了显著进展（Shinn等人，2023；Yao等人，2023b；Zhuang等人，2024），推动了基于大型语言模型的自主智能体研究（Wang等人，2023h；Xi等人，2023；Zhang等人，2023g）。

大型语言模型作为“大脑（控制器）”：与专注于特定任务的传统人工智能不同，通用人工智能追求理解通用任务的能力（Devlin等人，2019；Dosovitskiy等人，2021），覆盖范围广泛。在基于大型语言模型的人工智能系统中，大型语言模型通常扮演“大脑（或中央控制器）”的角色，负责推理、规划和决策，而将具体执行任务委托给专门的模块（工具、弱人工智能等）（Shen等人，2023a；Yang等人，2023a）。基于大型语言模型的人工智能已与弱人工智能产生显著差异，并正向人类认知和思维模式演进。

尽管部分研究认为大型语言模型是通用人工智能的早期表现形式（Bubeck等人，2023；Jack，2023），但也有学者认为，由于自回归建模、内存有限等因素，大型语言模型可能无法发展为通用人工智能。目前，关于大型语言模型是否能演进为通用人工智能仍存在激烈争论。但无论如何，基于大型语言模型的人工智能已走上与传统人工智能截然不同的道路，朝着更通用的方向发展。