强化预训练（RPT）：LLM 预训练新范式，当模型学会战略思考

最新推荐文章于 2025-11-27 14:26:48 发布

原创

最新推荐文章于 2025-11-27 14:26:48 发布 · 954 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #机器学习

RPT 通过将传统的 next-token-prediction 重构为 next-token-reasoning 任务，并引入强化学习机制，这种推理范式转化，显著提升了模型的推理能力和语言建模性能。让模型不仅是在预测 token，而在自己定义“任务”，推理“任务”。这一过程赋予了模型类似人类的战略思考模式。它不再只是机械地记忆和预测，而是在直接交付结果！

大家好，我是肆〇柒。在当下，大型语言模型（LLM）正以其卓越的能力在诸多任务中引人瞩目。这些能力的提升，很大程度上得益于在大规模文本数据上的 next-token-prediction 自监督学习范式。通过预测文本中的下一个 token，LLM 能够学习到语言的复杂模式和语义关系，从而在文本生成、问答系统、机器翻译等任务中取得显著成果。

然而，随着对模型性能要求的不断提高，强化学习（RL）逐渐成为微调 LLM 的关键技术。它能够使模型更好地对齐人类偏好，或者提升特定技能，如复杂推理等。但 RL 在实际应用中面临诸多挑战：一方面，基于人类反馈的强化学习（RLHF）严重依赖昂贵的人类偏好数据，这不仅限制了其可扩展性，还可能导致奖励劫持问题；另一方面，基于可验证奖励的强化学习（RLVR）虽能避免一些奖励劫持问题，却因标注数据的稀缺性，难以在通用预训练场景中广泛应用。

我曾在觉察流的社区群里提到过，o3 的一些能力非常强，甚至在跨领域知识的问答方面也很出彩。当时我有一个猜想，它怎么做到的？我的答案是，它可能在预测 CoT，而今天看到了这篇来自微软研究院、北京大学和清华大学研究团队的论文《Reinforcement Pre-Training》，让我对这一点猜测又确信了几分。

鉴于刚才所提到的挑战，这篇论文所论述的强化预训练（Reinforcement Pre-Training，RPT）被提出。RPT 为了弥合可扩展自监督预训练与强化学习优势之间的差距，创新性地将 next-token-prediction 任务重构为 next-token-reasoning 任务，利用大量无标注文本数据进行通用目的强化学习。这既能够显著提升语言建模的准确性，也为后续的强化微调奠定了坚实基础，有望推动 LLM 向更智能、更通用的方向发展。

RPT 的核心概念：从预测到推理的认知进化

RPT 基本原理：next-token-prediction 的重构

RPT 的核心思想在于对传统的 next-token-prediction 进行重构，将其转变为一个推理任务。在常规的 next-token-prediction 中，模型仅仅是基于前面的文本信息直接预测下一个 token，这种方式主要侧重于学习文本表面的模式和关联。然而，RPT 引入了截然不同的机制，它要求模型必须先生成一个推理序列，再进行下一个 token 的预测。这一过程极具创新性，类似于人类在面对问题时的思考过程，即先分析已有的信息，进行一系列的推理和思考，然后再得出结论。

例如，当模型在处理一段关于物理定律的文本时，若要预测下一个 token，它并非直接根据已有的词频统计等简单模式来进行预测，而是需要先理解前面文本中提到的物理概念、定律的适用条件等关键信息。然后，基于这些理解，生成诸如 “考虑到作用在物体上的力与质量的关系，接下来可能会提及加速度” 等推理序列，最终再确定下一个 token 是 “加速度” 或其他相关词汇。通过这种方式，模型能够深入挖掘文本背后的语义和知识，而不仅仅停留在表面的 token 级相关性上。

RPT 的多重优势

可扩展性和通用性 ：RPT 实现了在无标注文本数据上的通用目的强化学习，这是一次重大的突破。传统上，强化学习在 LLM 中的应用往往受限于数据的标注要求，无论是基于人类反馈的数据还是带有可验证答案的标注数据，都难以大规模获取。然而，RPT 完全依赖于无标注的文本数据，这意味着它可以充分利用互联网上海量的文本资源。无论是新闻报道、学术文献，还是社交媒体上的帖子等各种文本数据，都可以成为 RPT 的训练素材。这极大地拓展了模型训练的数据来源，使其能够涵盖各种不同的领域、主题和语言风格，为 LLM 的通用性提供了坚实的数据基础。例如，利用大量的文学作品训练 RPT 模型，使其能够更好地理解和生成具有文学风格的文本，如小说创作、诗歌生成等；在技术文档领域的应用，则有助于模型准确地理解和生成复杂的代码文档、技术报告等内容。

降低奖励劫持风险 ：在强化学习中，奖励劫持一直是一个令人头疼的问题。一些复杂的、基于学习的奖励模型可能会出现漏洞，模型可能会利用这些漏洞来获取高奖励，而并非通过真正有价值的学习行为。RPT 则巧妙地避免了这一问题，它采用直接的规则奖励信号，即根据预测的正确性给予奖励。这种奖励机制简单而有效，只关心模型预测的下一个 token 是否与实际文本匹配，而不涉及复杂的、容易被操纵的奖励模型。例如，在预测数学问题解答文本中的下一个 token 时，只有当模型准确地预测出正确的数学符号或概念词汇时，才会获得奖励。这使得模型能够专注于学习真正有价值的推理和预测能力，确保训练过程的稳定性和目标的准确性。

促进泛化而非死记硬背 ：RPT 通过鼓励模型生成推理序列，促使模型深入理解文本背后的逻辑和知识。这种方式使得模型能够跳出单纯的记忆模式，转而培养起强大的泛化能力。在传统的训练方式下，模型可能会倾向于记忆训练数据中的常见表达模式和 token 顺序，从而在面对新的、未见过的文本时表现不佳。而 RPT 则引导模型在训练过程中主动思考文本的内在逻辑和语义关系，探索多种可能的推理路径。例如，在处理一段关于历史事件的文本时，模型不会仅仅记住某个历史事件的固定表述，而是会思考事件发生的原因、影响等相关因素。这样一来，当遇到关于同一历史时期但不同具体事件的文本时，模型也能够基于已有的知识和推理能力进行准确的预测和理解，大大增强了其在不同文本场景下的适应性和泛化性能。

提升推理过程中的计算资源分配效率 ：RPT 在预训练阶段就巧妙地引入了推理过程，这相当于为模型分配了更多的 “思考” 时间。在传统的训练方式中，模型主要侧重于对下一个 token 的直接预测，而在 RPT 中，模型需要先进行推理序列的生成，然后再进行预测。这个过程使得模型在训练时就能够充分地利用计算资源，对每个 token 的预测进行更深入的思考和分析。类似于在推理时扩展（inference-time scaling）中为每个预测分配更多的计算资源来提升准确性，RPT 将这种计算资源的高效利用提前到了训练阶段。例如，在训练过程中，模型可能会花费更多的计算资源来分析上下文中的关键信息、探索多种可能的推理路径等，从而在训练完成后，能够在推理过程中更快速、更准确地进行预测，提高整体的性能表现。

RPT 的方法论：构建智能模型的精巧架构

预训练任务：next-token-reasoning

任务定义与推理序列生成算法

具体生成算法如下：

1. 初始化 ：以输入序列为起点，模型首先对上下文进行编码，提取关键语义信息。这一步骤就像人类在阅读一篇文章时，先快速浏览开头部分，对文章的主题和大致方向有一个初步的把握。例如，当输入的上下文是关于物理定律的描述时，模型会识别出其中涉及的物理概念、定律的名称等关键信息，为后续的推理和预测奠定基础。

2. 迭代推理 ：在每一步推理中，模型基于当前上下文和已生成的推理序列，生成下一个推理 token。这一过程会考虑语义连贯性、语法正确性以及与最终预测目标的相关性。例如，在处理数学问题时，模型可能会生成诸如 “考虑变量之间的关系”“应用定理公式” 等推理 token。这就好比人类在解决数学问题时，会一步步地分析问题的条件、应用相关的数学定理和公式，逐步向答案靠近。每一个推理 token 都是模型思考过程中的一个 “脚印”，记录着它对问题的逐步深入理解。

3. 预测生成 ：在完成推理序列后，模型基于推理序列和原始上下文，生成对下一个 token 的预测。预测过程会综合推理序列中的信息，以确定最可能的 token。以数学问题为例，经过一系列的推理 token 后，模型可能会预测下一个 token 是某个数学符号或特定的数值，这个预测结果是基于前面的推理过程

最低0.47元/天解锁文章