万字长文揭秘o1技术路线，强化学习增强LLM深度推理能力

最新推荐文章于 2025-10-03 08:00:00 发布

原创最新推荐文章于 2025-10-03 08:00:00 发布 · 1k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #AI大模型 #LLM深度推理 #干货分享 #计算机 #强化学习 #大模型开发

2024年9月，OpenAI 发布o1模型，在数学、代码、长程规划等问题方面取得显著进步，被称为是业界最优秀的逻辑推理模型，但OpenAI o1模型并没有提供其具体的实现细节。

DeepSeek R1以极低的成本复现OpenAI o1的深度推理能力，并实现了与OpenAI o1模型相当的性能，引发了全球科技界的震动。

但无论是OpenAI o1还是DeepSeek R1，其背后运用的技术关键都是强化学习（Reinforcement Learning，RL）。这种训练方式使模型在面对需要多层次推理的任务时，能够展现出与人类专家相当的表现。

去年底，在OpenAI o1发布之后，复旦大学邱锡鹏教授团队发布了论文 《Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective》，对 o1的技术路线 进行了全面综述，将强化学习作为 o1 技术路线图的核心，由四个部分组成：策略初始化、奖励设计、搜索和学习，这四个部分是构建具有 o1 强大推理能力的大语言模型的关键。

· 策略初始化使模型能够发展出类人推理行为，使其具备有效探索复杂问题解空间的能力；

· 奖励设计通过奖励塑造或奖励建模提供密集且有效的信号，为搜索和学习提供指导；

· 搜索在训练和测试阶段生成高质量解决方案中起着至关重要的作用，通过更多计算可以产生更好的解决方案；

· 学习利用搜索生成的数据来改进策略，通过更多参数和搜索数据可实现更好性能。

以下为沙丘智库对**《Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective》**的深度解读，旨在为业界同仁提供参考。

论文链接：https://arxiv.org/pdf/2412.14135

我给大家准备了一份全套的《AI大模型零基础入门+进阶学习资源包》，包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。😝有需要的小伙伴，可以VＸ扫描下方二维码免费领取🆓

01、概述

过去两年中，人工智能领域见证了大语言模型前所未有的探索和进步。大语言模型已经逐步发展到能够处理越来越复杂的任务，如编程和解决高级数学问题。OpenAI o1 代表了 AI 的一个重要里程碑，它可以生成非常长的推理过程，并进行类似人类的推理动作，如澄清和分解问题、反思和纠正以前的错误、在遇到故障模式时探索新的解决方案。o1 模型显著超越了前代大语言模型的推理能力，达到了与博士水平相当的性能。其卓越的推理成就显著推动了 OpenAI 在其五阶段路线图中向通用人工智能第二阶段（“推理者”）的进展。

o1 的博客和系统卡片表明，o1的性能随着强化学习和推理计算的增加而持续提高（OpenAI，2024a;b）。这表明 o1 可能推动人工智能领域的两个范式转变：从（自）监督学习转向强化学习，以及从仅扩展训练计算到扩展训练和推理计算。

如下图所示，技术路线图从策略初始化开始。在LLMs的背景下，策略（π(a|s)）通常指的是基于给定上下文（状态）生成下一个token/步骤/响应（动作）的概率分布。策略初始化为 LLMs 带来了类似人类的推理行为，如任务组合、自我评估和自我纠正。奖励设计旨在为搜索和学习提供指导信号。奖励设计可以从环境中获取或重塑奖励信号，或从偏好数据中学习奖励模型。策略初始化和奖励设计都是搜索和学习的准备。搜索在生成训练和测试阶段的高质量解决方案中起着重要作用，通过更多计算产生更好的解决方案。学习利用搜索生成的数据来改进策略。用于学习的数据来自大语言模型与环境的交互，而不是由人类专家手动策划，从而消除了对昂贵数据标注的需求，并实现了超越人类性能的潜力。

图片来源：《Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective》

策略初始化：从头开始使用强化学习训练LLM极具挑战性，但可以利用广泛的互联网数据来预训练一个语言模型，建立一个强大的初始策略模型，能够生成流畅的语言输出。此外，提示工程和监督微调帮助模型获得类似人类的推理行为，使它们能够系统地思考并验证自己的结果。这些方法使模型能够彻底探索其解决方案空间，从而获得解决问题的能力。

奖励设计：搜索和学习都需要奖励信号的指导来改进策略。存在不同级别的动作粒度，每个级别对应不同级别的奖励信号粒度。此外，这些信号在许多环境中通常是稀疏的甚至不存在。为了将稀疏的结果奖励转化为密集的过程奖励，有一些奖励塑造方法。对于奖励信号不可用的环境，如故事写作任务，可以从偏好数据中学习奖励模型。

搜索：在训练和测试阶段都起着至关重要的作用。训练时搜索指的是从搜索过程中生成训练数据。使用搜索生成训练数据的优势在于，与简单采样相比，搜索能够产生更好的动作或解决方案——即更高质量的训练数据——从而提高学习效果。在推理过程中，搜索在改进模型的次优策略中发挥重要作用。例如，AlphaGo在测试期间使用蒙特卡洛树搜索（MCTS）来增强其性能。然而，扩展测试时搜索可能导致由于分布偏移而产生的逆向扩展：策略、奖励和价值模型在一个分布上训练，但在不同的分布上进行评估。

学习：从人类专家数据中学习需要昂贵的数据标注。相比之下，强化学习通过与环境的交互进行学习，消除了对昂贵数据标注的需求，并提供了超越人类表现的潜力。在这一路线图中，强化学习利用搜索生成的数据通过策略梯度或行为克隆进行学习。策略梯度方法具有高数据利用率，因为它们利用了正负解决方案，而行为克隆在简单性和内存效率方面具有优势。搜索与学习之间迭代交互的一个突出例子是 AlphaGo Zero，它将蒙特卡洛树搜索（MCTS）作为搜索算法与行为克隆作为学习方法相结合，最终在围棋游戏中实现了超越人类的表现。

02、策略初始化

在强化学习中，策略定义了Agent如何根据环境状态选择动作。LLMs 在三个粒度级别上操作动作：解决方案级别、步骤级别和token级别。解决方案级别动作代表最粗粒度，将整个解决方案视为一个单一动作。步骤级别在中间粒度上操作，其中各个步骤作为离散动作。token级别提供最细粒度，将每个单独的token视为一个动作。以token级别的动作为例，动作空间包含词汇表中的数千个token，建立一个良好的初始化策略对于有效的模型性能至关重要。

如下图所示，LLMs的初始化过程包括两个主要阶段：预训练和指令微调。在预训练期间，模型通过在大规模网络语料库上的自监督学习发展基本的语言理解，遵循计算资源和性能之间既定的幂律关系。然后，指令微调将 LLMs 从简单的下一个token预测转变为生成与人类对齐的响应。**对于像 o1 这样的模型，纳入类似人类的推理行为对于实现更复杂的解决方案空间探索至关重要。**类似于人类的关键推理行为可以总结为六种，这些行为可以通过提示激活或从 LLMs 中对专家轨迹进行学习。

图片来源：《Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective》

2.1 预训练

预训练通过暴露于大量文本语料库在 LLMs 中建立基本的语言理解和推理能力。对于像 o1 这样的模型，这些核心能力作为通过后续学习和搜索发展出的高级行为的基础。

（1）语言理解和生成

预训练通过广泛接触自然语言培养多样化的语言能力。在句法层面，模型学习从基本词序模式到复杂依赖关系的语法结构。这种句法基础使模型能够理解语用学，包括话语标记和上下文语言使用，使模型能够适应不同任务中的不同风格。生成能力从基本的语法一致性发展到复杂的特征，如长距离一致性和复杂的叙述结构。通过多语言训练数据，模型发展跨语言能力，实现跨语言的零样本转移和文化理解。

（2）世界知识获取和存储

预训练通过多样化的语料库处理，使模型能够全面获取事实、程序和概念领域的知识。模型从百科全书来源和学术文献中发展出丰富的事实知识语义网络，从而实现跨领域推理和新颖见解。领域专业知识从专门的技术内容中产生，体现在数学证明和科学分析等高级能力中。程序性知识通过接触教学内容和编程语言而发展，增强了系统的解决问题能力。数学和逻辑基础通过正式的数学文本形成，建立了逻辑推理能力

（3）基本推理能力

预训练通过多样化的推理模式发展基础推理能力，从简单推理到复杂推理层次化地出现。模式匹配和类比推理作为主要机制出现，使模型能够跨领域泛化。逻辑推理能力通过接触大量代码和数学证明而发展，而顺序处理能力则从程序文本和数学推导中产生。这些能力使模型能够进行复杂问题的分解和保持逻辑一致性。

2.2 指令微调

指令微调通过在不同领域对指令-响应对进行专门训练，将预训练的语言模型转变为面向任务的Agent。这一过程将模型的行为从纯粹的下一个token预测转变为有目的的行为。指令微调的效果主要取决于两个关键因素：指令数据集的多样性和指令-响应对的质量。

2.3 类人推理行为

尽管经过指令微调的模型展示了一般任务能力和用户意图理解，但像 o1 这样的模型需要更复杂的类人推理能力库来充分发挥其潜力。如表1所示，本文通过对 o1 的行为模式分析确定了六种类人推理行为，这些行为帮助 o1 更好地探索解决方案空间，并通过监督微调和提示工程两种互补的视角来检查这些推理行为的实现。

图片来源：《Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective》

（1）问题分析

问题分析是模型在解决问题之前重新表述和分析问题的关键初始化过程。这一过程涉及多个步骤：明确的问题重述以验证理解、识别隐含约束，以及将抽象要求转化为具体、可操作的规范。Deng 等人（2023）通过主动思维链推进这一概念，模型在解决问题之前主动分析潜在的歧义。在 o1 的密码破解博客中，这表现为仔细观察密文模式和明确的问题重述。如表1所示，在编码任务中，它将输入重构为矩阵并精确生成预期输出。问题分析减少了问题解释中的歧义，为后续阶段构建了更有利的初始状态。

（2）任务分解

当遇到复杂问题时，人类通常会将它们分解为几个可管理的子任务。如表 1 所示，在编码任务中，o1 将问题分解为几个子任务，包括捕获输入字符串、删除空格和解析输入字符串。最近的研究表明，当由精心构建的提示引导时，模型可以有效地执行此类分解。重要的是，分解过程是自适应和上下文感知的，模型根据问题的复杂性和不确定性水平动态调整子任务的粒度和结构。

（3）任务完成

经过问题分析和任务分解后，模型通过基于澄清问题和分解子任务的逐步推理生成解决方案。这种行为为所有其他推理过程奠定了基础，其中成功的解决方案导致后续子任务处理，而问题解决方案则触发替代方案或自我纠正行为的生成。逐步生成显著增强了模型的复杂推理能力。对于 LLMs，这种能力可以通过包含推理过程的提示激活，甚至可以通过简单的指令如“让我们一步一步思考”激活。较小的模型可以通过在广泛的逐步推理数据上进行蒸馏来获得这种能力。最近的研究表明，采样多个解决方案显著提高了生成正确答案的概率，而基于边际概率选择最终答案则有效提高了整体准确性。

（4）替代方案

当遇到推理障碍或死胡同时，生成多样化的替代解决方案的能力变得至关重要。如表 1 所示，o1 在密码破解中展示了这种能力，通过系统地提出多个选项。不同的思维链微调模型在单次推理中生成多个解决方案，显著提高了复杂推理任务的性能。可以通过提示策略激活替代方案的生成。渐进式提示（Progressive-Hint Prompting）利用历史解决方案尝试指导当前推理，而思维交换（Exchange-of-Thought）通过结合其他模型的见解丰富解决方案空间。这种对替代方案的系统探索不仅扩展了搜索空间，还通过解决方案比较实现了迭代改进，从而产生更合理的输出。

（5）自我评估

在任务完成后，自我评估是验证所提出解决方案正确性的关键验证机制。如表 1 所示，在 o1 的密码示例中，模型逐字比较明文和密文，通过“让我们检查”或“让我们测试”等明确反馈表达自我评估。这种评估能力可以通过两种主要方法增强：实施详细的评估标准以灌输自我评估能力，或利用自我辩论进行交叉验证。

（6）自我纠正

当在推理过程中遇到可管理的错误时，模型采用自我纠正行为来解决这些问题。在 o1 的演示中，遇到“不”或“等待”等信号会触发纠正过程。如表 1 所示，在 o1 的科学示例中，模型识别出公式生成中的错误，并通过自我纠正生成正确的公式。

虽然上述行为提供了对 o1 类人推理能力的见解，但它们仅代表其全面推理框架的一个子集。该模型展示了超越这些基本模式的复杂自适应行为，根据任务特定要求和限制动态调整其问题解决策略。

2.4 关于 o1 策略初始化的推测

在从预训练到指令跟随的过程中，模型逐渐限制其动作空间。策略初始化在开发类似 o1 的模型中起着关键作用，因为它建立了影响后续学习和搜索过程的基础能力。策略初始化阶段包括三个基本组成部分：预训练、指令微调和类人推理行为的发展。虽然这些推理行为在指令微调后隐含在 LLMs 中，但它们的有效部署需要通过监督微调或精心设计的提示来激活。有效利用这些类人推理行为的几个基础能力如下：

（1）长文本生成能力

在推理过程中，LLMs 需要生成大量token以涵盖复杂和多样的推理行为，这需要复杂的长上下文建模能力。虽然当前的 LLMs 在处理长文本方面已显著改进，但它们生成长内容的能力仍然有限。

（2）塑造类人推理行为的逻辑性

除了生成广泛的输出外，模型还必须发展出以逻辑一致的方式协调类人推理行为的能力。这种协调需要复杂的决策。例如，当自我评估识别出错误时，模型必须战略性地决定是进行自我纠正还是探索替代解决方案。虽然这些类人推理行为能够全面探索解决方案空间，但它们同时也引入了计算复杂性，并要求增强逻辑推理能力。然而，这些类人推理行为的系统组织和排序仍然是一个开放的研究挑战，特别是在确定部署特定推理行为的最佳决策点方面。

（3）自我反思

自我评估、自我纠正和替代方案等行为是模型自我反思能力的体现。自我反思解决了自回归模型的一个基本限制：无法修改先前生成的内容。此外，自我反思展示了模型的自我认知，使其能够自发地识别生成内容中的错误。当前研究表明，这种能力不容易获得，并且不能通过参数高效的微调方法有效学习。

2.5 复现o1策略初始化的挑战

虽然策略初始化为类似 o1 的模型奠定了关键基础，但实施过程中存在如下挑战：

第一，如何平衡采样效率和采样多样性？策略初始化在为高效采样而优化动作概率分布与为探索而保持足够的多样性之间面临关键的权衡。虽然从人类演示中学习有助于限制动作空间，但过度收敛到固定策略可能会限制搜索阶段发现更优方法的能力。这一挑战在比较 AlphaGo 和 AlphaGo Zero 时显而易见，从人类数据初始化提供了一个强有力的起点，但可能无意中限制了对潜在更好策略的探索。

第二，如何确保推理行为的领域泛化？当前研究集中在复制 o1 在特定领域中的行为。然而，o1 的行为不仅限于特定领域的推理行为。例如，在安全任务中，模型需要执行验证生成内容是否符合安全指南的行为。因此，在策略初始化过程中，模型不应仅限于特定领域的推理行为。由于为所有任务指定相应的推理行为是不切实际的，因此设计具有强大领域泛化能力的推理行为变得至关重要。

03、奖励设计

在强化学习中，Agent从环境中接收奖励信号形式的反馈，并通过改进其策略来寻求最大化其长期奖励。虽然可以从各种奖励设计中学习到相同的最优策略，但设计良好的奖励信号可以加速学习和搜索过程的收敛和效率。

3.1 结果奖励与过程奖励

结果奖励涉及根据大语言模型的输出是否满足预定义的期望来分配分数。尽管结果奖励相对容易构建，但它缺乏对中间步骤的监督。因此，使用结果奖励可能导致 LLM 生成错误的解决方案步骤，这可能会对性能产生负面影响。此外，结果奖励是稀疏的，因为它不奖励中间步骤，这使得学习步骤级策略变得具有挑战性。尽管存在这些局限性，由于其简单性，它在 LLM 的强化学习中仍然被广泛使用。

与结果奖励相比，过程奖励不仅为最终步骤提供奖励信号，还为中间步骤提供奖励信号。结果奖励可以看作是过程奖励的一个特例，其中中间步骤的奖励都设置为零。

根据动作的粒度，过程可以分为token级和步骤级。步骤级分割是灵活的。

尽管过程奖励显示出潜力，但它们比结果奖励更难以学习。有一些自动方法可以将结果奖励转换为过程奖励，这在传统强化学习中被称为奖励塑造。

3.2 奖励设计方法

由于结果奖励可以被视为过程奖励的一个特例，许多奖励设计方法可以应用于结果奖励和过程奖励的建模。由此产生的模型通常被称为结果奖励模型（ORM）和过程奖励模型（PRM）。

用于大语言模型的奖励设计方法如下，并根据它们是否可以直接访问来自环境的奖励信号对进行分类。

（1）来自环境的奖励

设计奖励最直接方法是直接利用来自环境的奖励信号，或者学习一个模型来模拟来自环境的奖励信号。

从真实环境中获取：许多环境可以提供有效的奖励信号，例如，代码生成可以从编译器或解释器中接收奖励信号。

从模拟环境中获取：虽然一些环境可以提供有效的反馈，但与它们交互以获取奖励信号可能成本高昂，或者在测试时反馈可能不可用。例如，在测试期间，可能没有测试用例来验证 LLM 生成的程序是否正确。在这种情况下，需要一个奖励模型来模拟环境中的奖励信号。

模拟奖励信号使 LLM 能够在任何时候获得反馈。然而，在学习和搜索过程中使用这样的奖励模型可能导致分布偏移问题。随着学习和搜索过程中策略的更新，奖励模型（基于旧策略和环境之间交互的数据进行训练）可能无法适应新策略。这个问题，称为奖励优化。因此，奖励模型必须与策略改进同步更新。在更一般的领域中，模拟环境与世界模型的概念一致，其中状态的转移概率必须进一步模拟，以获得更准确的奖励模型。

从 AI 判断中获取：AI 判断涉及使用通用 AI 助手提供奖励信号，作为依赖真实环境的替代方案，从而避免与环境建设和交互相关的高成本。例如，通常使用强大的LLM（如 GPT-4）来评估 AI 助手的性能。虽然 AI 判断可以被视为一种奖励模型，但它不面临奖励优化问题，因为它不依赖于策略模型。因此，即使策略模型更新，AI 判断仍然有效。LLM 是世界模型的实现，这也突出了构建世界模型以提供奖励信号的有效性。

（2）来自数据的奖励

对于一些环境，来自环境的奖励信号是不可用的，无法模拟。例如，很难判断 AI 助手的响应是好还是不好。但收集专家数据或偏好数据比给予奖励更容易。有了专家数据或偏好数据，也可以学习一个模型来提供有效的奖励。

从偏好数据中学习奖励在 LLM 社区中得到了广泛认可，特别是由于 RLHF的成功。然而，从专家数据中学习奖励，也称为逆向强化学习，尚未被广泛用于 LLMs，这可能代表了一种有前景的技术。

**从偏好数据中学习奖励：**通过将 LLMs 对同一问题的多个响应进行排名来收集偏好数据。使用 Bradley-Terry 模型，可以根据成对比较得出结果奖励。

从偏好数据中学习已被广泛用于 LLMs 的对齐。然而，构建准确反映下游任务实际性能的偏好数据至关重要。

从专家数据中学习奖励：逆向强化学习（IRL）是一种从专家数据中学习奖励的方法，其目标是恢复专家正在优化的奖励函数。这是通过将奖励函数拟合到专家生成的轨迹并最大化恢复的奖励来实现的。许多 IRL 方法整合了对抗性学习技术。与从偏好中学习奖励相比，IRL 的数据更容易收集。然而，IRL 通常涉及对抗性训练，这使得学习比从偏好中学习奖励更复杂。尽管 IRL 在强化学习中很有名，但没有实证证据表明它已被用于 LLM 的大规模强化学习。

（3）奖励塑造

来自某些环境的奖励信号可能无效；例如，它可能是结果奖励而不是过程奖励。在这种情况下，可以重塑奖励以使其更密集且更具信息性，这一过程称为奖励塑造。

虽然奖励塑造可能是有利的，但它也可能是有害的。不当的奖励塑造可能对学习和搜索过程产生负面影响。因此，奖励塑造需要精心设计，通常需要纳入归纳偏差。

3.3 关于 o1 奖励设计的推测

鉴于 o1 能够处理多任务推理，其奖励模型可能会结合多种奖励设计方法。对于复杂的推理任务，如数学和编程，其中响应通常涉及长链推理，更有可能采用过程奖励模型来监督中间过程，而不是 ORM。像奖励塑造这样的技术可以帮助从结果奖励中推导出过程奖励。

当环境中没有奖励信号可用时，怀疑o1可能需要依赖于从偏好数据或专家数据中学习。

鉴于 o1 可以通过少量示例进行微调，怀疑它有一个在跨越广泛领域的大型和多样化数据集上训练的强大奖励模型。它可以通过地面真实值和解决方案对轻松适应新领域。此外，它更有可能通过 LLM 生成来预测奖励。

3.4复现 o1 奖励设计的挑战

如何克服分布偏移？奖励模型从现有数据集分布中学习，而分布外问题在今天仍然显著，特别是当 LLM 继续探索并从反馈中学习时。当策略模型的分布发生变化时，proxy模型提供的奖励偏离了黄金奖励，因为奖励模型训练过程中的轨迹变得不可见，并且严重依赖于其泛化能力。扩展奖励模型的参数和增加数据量可以缓解这个问题，但并未完全解决。迭代训练奖励模型提供了更直接的解决方案，但仍然需要人类参与循环。

如何为语言模型设计细粒度奖励？与 Atari 游戏或机器人环境不同，语言提出了一个独特的挑战，因为步骤或动作的定义可以在粒度上有所不同：token级、步骤级或解决方案级。在许多情况下，例如使模型适应人类偏好，评估整个解决方案而不是每个标记个体更自然，因为语言中的高阶语义是从token组合中产生的。然而，使用token组合作为动作会导致动作空间过大，以至于无法定义或学习奖励函数。潜在的动作空间呈指数增长，导致动作长尾。同时，如前所述，奖励信号的稀疏性随着每个步骤的长度增加而增加。

如何在为复杂任务建模奖励时选择数据？随着任务复杂性的增加，选择合适的反馈类型变得越来越具有挑战性。最近的研究表明，对于代码生成或数学推理等任务，使用基于偏好的反馈实际上可能会降低策略模型的性能。此外，准确捕捉预期行为所需的数据量的问题仍未被充分探索。随着任务复杂性的增加，评估奖励是否有效的难度也在增加。

3.5 .泛化

在解决更一般的任务时，需要创建一个更广泛的环境。实际上，根据 OpenAI 的 AGI 五阶段计划，o1 已经成为一个强大的推理者，下一个阶段是训练一个能够与世界互动并解决现实世界问题的Agent。为了实现这一目标，需要一个奖励模型来为Agent在现实环境中采取行动提供奖励信号。构建一个通用的奖励信号可以分为两个组成部分：奖励集成和世界模型。

奖励集成：为一般任务构建奖励信号的一种直观方法是通过特定领域的集成奖励。

世界模型：世界模型不仅可以提供奖励信号，还可以预测下一个状态。当前世界模型的研究工作集中在下一个状态预测的建模上，但对于Agent完成真实环境任务来说，建模奖励信号也是至关重要和具有挑战性的。

04、搜索

对于LLMs，在生成过程中执行随机采样已成为提高输出质量的主流方法，其中核采样技术是突出的例子。此外，许多研究观察到，随着模型样本数量的增加，pass@k 指标持续改善。

搜索是指通过多次尝试或基于某些指导（如奖励或启发式规则）进行战略性探索来找到正确解决方案的过程。众所周知的推理策略，如自洽性和最佳N选（BoN）都可以视为搜索方法。对于像 o1 这样设计用于解决复杂推理任务的模型，搜索可能在训练和推理过程中发挥重要作用。

4.1 搜索在o1中的作用

搜索通常依赖于指导信号，因此可以被视为一种策略迭代过程，称之为搜索策略。与简单采样相比，搜索策略通常更有可能找到更好的解决方案。搜索策略生成的解决方案可以直接用作最终输出，或者纳入训练算法中，以迭代改进策略。搜索在 o1 的训练和推理过程中都起着至关重要的作用，分别称为训练时搜索和测试时搜索。

在训练阶段，在线强化学习中的试错过程也可以被视为一种搜索过程，其中Agent基于自身的策略进行简单采样，并学习产生高奖励的解决方案。然而，由于 o1 涉及更长的推理长度并包括类似人类的推理行为，搜索空间变得较大，简单采样可能变得低效。因此，需要一些高级搜索策略来更有效地探索更好的解决方案，并将其用作训练数据以更新策略模型。这个过程可以在训练期间迭代进行。在推理阶段，o1 表明在推理过程中增加计算时间，通过花费更多时间思考可以持续提高模型性能。o1的思考方式可以被视为一种搜索，使用更多的推理时间计算来找到更好的答案。

搜索的两个关键方面是搜索的指导信号和获取候选解决方案的搜索策略。搜索策略用于获取候选解决方案或动作，而指导信号用于进行选择。

搜索过程的指导信号分为内部和外部指导；搜索策略分为树搜索和顺序修订。值得注意的是，这两个分类维度是正交的，例如，树搜索方法可以利用内部或外部指导信号。图 6 中展示了这些类别的示意图。

4.2搜索指导

基于内部指导的搜索不依赖于外部环境或proxy模型的真实世界反馈，而是使用模型自身的某些状态或评估能力来指导搜索过程。经典的文本生成解码算法，如贪婪解码和束搜索，通常使用token或序列的概率作为搜索过程的内部指导。外部指导通常独立于特定策略，并仅依赖于环境或任务相关的信号来指导搜索过程。

内部指导完全依赖于模型，避免了对外部环境或地面真实值的需求，并且通常与任务无关。因此，当下游任务的特定评估标准不可用时，内部指导具有高度的可转移性和实用性。

外部指导依赖于特定下游任务信息，如来自交互环境的奖励或地面真实值，使其更符合模型性能，并更好地指导搜索策略。然而，它引入了建设成本和计算开销。在推理过程中，地面真实值通常不可用，与环境或模拟器的交互成本高昂。此外，来自surrogate模型（如固定奖励模型）的外部指导可能面临分布外（OOD）问题。因此，推理过程中的外部指导需要仔细考虑。

内部和外部指导可以结合来指导搜索过程，典型方法整合模型自身的不确定性和奖励模型的proxy反馈。

价值函数是结合内部和外部指导的另一种信号类型。在强化学习中，价值函数估计从状态（V 函数）或状态-动作对（Q 函数）的预期累积奖励，指导Agent选择最大化长期奖励的动作。它通常依赖于环境奖励信号，并使用单独的神经网络。

价值函数在强化学习中起着基础性作用，因为它量化了从特定状态开始并根据给定策略采取行动的长期预期回报。通过评估状态的价值，价值函数使代理能够比较并做出明智的决策，以确定在特定策略下哪些状态或行动更有利。使用价值函数的主要挑战在于准确估计，特别是在奖励稀疏或高维输出的任务中，如大语言模型生成，其中不准确可能会显著影响性能。

4.3 搜索策略

搜索策略分为两种类型：树搜索和顺序修订。树搜索同时生成多个答案，充当探索更广泛解决方案的全局搜索。相比之下，顺序修订基于之前的尝试进行细化，作为可能提供更高效率的局部搜索。

典型的树搜索算法如最佳N选（BoN）、束搜索和蒙特卡洛树搜索（MCTS）。BoN 生成多个独立的候选解决方案，但缺乏对模型概率分布的动态调整，导致效率低下，例如过度采样高概率选项。BoN 可以被视为具有深度为1节点的树搜索的特例。相比之下，其他树搜索策略在每一步动态调整，通过启发式平衡探索和利用，并可以使用前瞻搜索、回溯和剪枝来提高效率并减少采样成本。在 LLMs 上使用树搜索算法的一个重要问题是定义树节点的粒度。如图 7 所示，树节点的常见粒度包括：标记级、步骤级和解决方案级。标记级代表最细粒度，而解决方案级代表最粗粒度。一般来说，搜索树节点的粒度越小，搜索树就越深。

与树搜索相比，顺序修订主要通过迭代细化之前的答案来进行搜索。顺序修订的关键特征是它基于对先前答案的反思或环境变化生成改进的答案。顺序修订要求模型具备基本的自我反思和错误纠正能力，这些能力可以在通过SFT或提示进行策略初始化时引入。

顺序修订可以直接依赖于内部指导，如自我评估。关于顺序修订是否真正有效仍有争议。例如，Huang 等人（2024a）认为大型模型在没有外部反馈的情况下无法正确自我纠正。然而，相反的观点表明，由于 DG 差距（Leike，2022）的存在，大型模型可能具有更强的能力来辨别和改进他们已经生成的答案，从而允许进一步的细化。Chen 等人（2024d）在一系列任务中进行实证研究，发现当判别器（指导）的准确性 ≥ 90% 时，顺序修订仅在性能上优于 BoN 等更简单的方法。

树搜索和顺序修订可以一起使用。在树搜索中，使用解决方案级搜索节点可以被视为树搜索和顺序修订的结合。此外，Snell 等人（2024）通过首先随机采样 N 个候选解决方案，然后对这些 N 个解决方案应用顺序修订，最后使用验证器从所有解决方案中选择最佳解决方案，将 BoN 与顺序修订结合。这种结合方法的性能超过了 BoN。这样的结果可能展示了结合这两种搜索策略的潜力。

4.4 关于o1搜索策略的推测

训练时搜索：在训练期间，o1 更有可能采用树搜索技术，如 BoN 或树搜索算法，并主要依赖于外部指导。这是因为模型需要在训练期间逐步增强其推理能力，而树可以并行采样大量候选解决方案，有效地为模型提供丰富的高质量训练数据。此外，由于训练期间不需要实时交互，可以访问各种外部环境来验证采样解决方案，例如执行代码或验证数学计算的准确性。这种外部指导有助于更准确地引导模型的搜索过程。

测试时搜索：对于测试时搜索，o1 更有可能使用顺序修订，结合内部指导，通过反思不断细化和纠正其搜索。通过 o1 博客中的例子，可以观察到 o1 的推理风格更接近于顺序修订。此外，使用树搜索进行长时间推理过程可能导致显著的开销。在推理过程中，很难依赖于真实环境进行指导，基于proxy反馈（如奖励模型）进行广泛搜索可能导致过优化问题。虽然在推理过程中增加计算量，但实际上可能会降低性能。然而，o1 博客中的观察表明，随着推理过程中计算量的增加，模型的性能持续改善。因此 o1 在推理阶段主要使用内部指导。推理过程中的计算主要反映在推理链的长度上。

4.5 复现 o1 搜索的挑战

如何克服逆向扩展？一种方法是减少测试时搜索，因为逆向扩展现象主要发生在大规模搜索期间。然而，这限制了搜索的规模。或者，通过提高奖励模型的泛化能力来处理未见状态是另一种解决方案。受 LLM 开发的启发，这可以通过增加模型的规模和训练数据来实现。

如何避免在简单任务上过度思考？并非所有问题都需要复杂的推理或搜索。对于像“1+1=？”这样的直接问题，进行复杂的分析会浪费计算资源并可能引入错误。在这些问题上强制推理会浪费资源并导致延迟。为了解决这个问题，可以通过使用带有长度惩罚的奖励塑造来限制思维链的长度。这种重塑的奖励平衡了最小化不必要的搜索和有效解决问题。

如何在树搜索和顺序修订之间进行权衡？搜索在两个维度上扩展：树搜索和顺序修订。结合两者可以提高性能，但在固定的计算预算下，资源的最佳分配仍然不明确。这一挑战类似于在固定预算下平衡模型大小和数据大小。经验扩展法则可以为资源分配提供指导。

如何提高搜索效率？扩展搜索的一个关键挑战是效率，因为 LLMs 的自回归生成受到内存读写速度的限制，限制了 GPU 利用率。此外，一些树搜索算法，如 MCTS，缺乏固有的并行性。提高效率需要工程和算法解决方案。

05、学习

强化学习至关重要的原因在于，强化学习的训练数据是无限的，这些数据来自于与环境的互动。相比之下，人类专家数据是有限的且昂贵的。此外，强化学习具有实现超人类性能的潜力，因为它是从试错中学习，而不是从人类专家数据中学习。虽然人类专家数据捕捉了人类行为和知识，但强化学习可以导致人类可能无法实现的策略发现。AlphaGo利用强化学习，能够通过发现专家之前未知的新颖策略，在围棋游戏中击败世界级人类玩家。

强化学习通常使用策略采样轨迹并根据收到的奖励改进策略。在 o1 的背景下，假设强化学习过程通过搜索算法生成轨迹，而不是仅依赖于采样。搜索方法的一个优势是它们能够探索比随机采样更优越的状态或解决方案。例如，束搜索优先考虑具有最高预期动作值的动作。因此，搜索技术可以提供比简单采样更高质量的训练数据。在这一假设下，o1 的强化学习可能涉及搜索和学习的迭代过程。在每次迭代中，学习阶段利用搜索生成的输出作为训练数据来增强策略，而改进后的策略随后应用于下一次迭代的搜索过程中。这种搜索和学习的迭代的一个突出例子是 AlphaGo Zero，它使用通过蒙特卡洛树搜索（MCTS）获得的轨迹数据进行策略学习。

训练时搜索不同于测试时搜索。测试时搜索输出具有最大奖励或在所有候选解决方案中具有最高信心的解决方案。但在训练中，搜索生成的所有候选解决方案都可能用于学习。本文将搜索输出的状态-动作对集合表示为 Dsearch，将搜索中最优解决方案的状态-动作对集合表示为 Dexpert。因此，Dexpert 是 Dsearch 的子集。图 8 展示了Dsearch 和 Dexpert 之间的差异。

5.1关于 o1 学习的推测

通过对PPO、DPO 和行为克隆进行了一些比较，可以查看哪一种更有可能用于 o1。这三种方法在内存成本和数据利用方面的不同之处在表 3 中进行了总结。

内存成本：PPO 需要在内存中存储奖励函数、价值函数和参考策略，这很昂贵。虽然 DPO 消除了奖励模型和价值模型，这比 PPO 更简单且更节省内存。但 DPO 基于 Bradley-Terry 模型并需要参考数据。对于一些环境，当地面真实值可用时，使用奖励信号通过 PPO 学习策略比从偏好数据中学习更好。行为克隆甚至不需要参考策略，因此在三种学习方法中是最节省内存的。

数据利用：这三种学习方法之间的差异不仅在于学习算法，还在于训练数据。PPO 和 DPO 使用搜索中的所有状态-动作对（Dsearch），即使是那些带有负奖励的。而行为克隆采用搜索中具有高奖励的状态-动作对的子集（Dexpert）。因此，PPO 和 DPO 的数据利用比行为克隆更好，因为负动作或解决方案也可以提供有用的信号来改进策略。

o1 的学习可能来自多种学习方法的结合。在此框架中，假设 o1 的学习过程以行为克隆的冷启动阶段开始，一旦行为克隆的改进趋于平稳，就转向 PPO 或 DPO。这种方法基于行为克隆比 PPO 或 DPO 更有效的想法，从而加速冷启动阶段。然而，行为克隆的局限性在于它仅从最高奖励的解决方案中学习并忽略负解决方案。因此，进一步优化可能需要使用 PPO 或 DPO，这提供了更好的数据利用。这一流程与 LLama2中采用的后训练策略一致。

5.2 复现 o1 学习的挑战

如何提高训练效率？训练效率的主要瓶颈来自于训练时的搜索过程，因为在同一批次上 LLM 生成所需的时间超过了训练时间，搜索特别慢。例如，在开源项目 MCTS-DPO中，大部分训练时间被 MCTS 搜索消耗，导致在 A800 GPU 上使用 MATH 数据集的训练时间长达一周。加速训练有两个潜在策略：第一，改进搜索算法和实现；第二，扩展学习范围，超越在线搜索生成的数据，包括来自先前搜索迭代的数据。虽然重用先前迭代的数据可能会引入与策略外学习相关的问题，但它增加了数据利用率，从而减少了搜索规模。

如何学习强大的问题生成器？用于学习的数据不仅包括解决方案，还包括问题。随着 LLM 策略的改进，挑战性问题变得简单。因此，更新问题或初始状态可能很重要。例如，新问题可以更具挑战性或探索新领域。基于 LLM 策略生成问题具有挑战性，因为生成的问题可能不适合甚至无法解决。在这些问题上学习无助于改进 LLM 策略。

如何在策略外学习中缩小分布偏移？搜索生成的解决方案通常比从当前策略中采样的数据更好。结果是搜索生成的数据可以被认为是来自更好的策略。使用搜索生成的数据进行策略梯度训练构成了策略外学习。为了缓解策略外学习中的分布偏移，一个直接的方法是限制搜索规模。搜索规模越小，分布偏移问题越不明显。或者，可以实施从当前策略中采样的搜索，这样就不存在分布偏移问题。

一种替代方案是结合策略外学习方法。虽然在 TRPO和 PPO中使用的重要性采样和 KL 散度约束等技术是有效的。然而，它们需要了解与搜索数据相关的策略概率，这是不可用的。

另一种方法是利用行为克隆将策略外学习转变为策略内学习。可以先在搜索数据 Dsearch 上应用行为克隆。完成行为克隆后，可以在搜索数据上进行策略梯度训练。策略梯度训练在行为克隆之后的流程在每次迭代中发生。此外，这种方法可以补充本文的推测：在冷启动阶段执行行为克隆，然后在每次迭代中结合行为克隆和 PPO。