强化预训练(RPT):LLM 预训练新范式,当模型学会战略思考

RPT 通过将传统的 next-token-prediction 重构为 next-token-reasoning 任务,并引入强化学习机制,这种推理范式转化,显著提升了模型的推理能力和语言建模性能。让模型不仅是在预测 token,而在自己定义“任务”,推理“任务”。这一过程赋予了模型类似人类的战略思考模式。它不再只是机械地记忆和预测,而是在直接交付结果!

大家好,我是肆〇柒。在当下,大型语言模型(LLM)正以其卓越的能力在诸多任务中引人瞩目。这些能力的提升,很大程度上得益于在大规模文本数据上的 next-token-prediction 自监督学习范式。通过预测文本中的下一个 token,LLM 能够学习到语言的复杂模式和语义关系,从而在文本生成、问答系统、机器翻译等任务中取得显著成果。

然而,随着对模型性能要求的不断提高,强化学习(RL)逐渐成为微调 LLM 的关键技术。它能够使模型更好地对齐人类偏好,或者提升特定技能,如复杂推理等。但 RL 在实际应用中面临诸多挑战:一方面,基于人类反馈的强化学习(RLHF)严重依赖昂贵的人类偏好数据,这不仅限制了其可扩展性,还可能导致奖励劫持问题;另一方面,基于可验证奖励的强化学习(RLVR)虽能避免一些奖励劫持问题,却因标注数据的稀缺性,难以在通用预训练场景中广泛应用。

我曾在觉察流的社区群里提到过,o3 的一些能力非常强,甚至在跨领域知识的问答方面也很出彩。当时我有一个猜想,它怎么做到的?我的答案是,它可能在预测 CoT,而今天看到了这篇来自微软研究院、北京大学和清华大学研究团队的论文《Reinforcement Pre-Training》,让我对这一点猜测又确信了几分。

鉴于刚才所提到的挑战,这篇论文所论述的强化预训练(Reinforcement Pre-Training,RPT)被提出。RPT 为了弥合可扩展自监督预训练与强化学习优势之间的差距,创新性地将 next-token-prediction 任务重构为 next-token-reasoning 任务,利用大量无标注文本数据进行通用目的强化学习。这既能够显著提升语言建模的准确性,也为后续的强化微调奠定了坚实基础,有望推动 LLM 向更智能、更通用的方向发展。

RPT 的核心概念:从预测到推理的认知进化

RPT 基本原理:next-token-prediction 的重构

RPT 的核心思想在于对传统的 next-token-prediction 进行重构,将其转变为一个推理任务。在常规的 next-token-prediction 中,模型仅仅是基于前面的文本信息直接预测下一个 token,这种方式主要侧重于学习文本表面的模式和关联。然而,RPT 引入了截然不同的机制,它要求模型必须先生成一个推理序列,再进行下一个 token 的预测。这一过程极具创新性,类似于人类在面对问题时的思考过程,即先分析已有的信息,进行一系列的推理和思考,然后再得出结论。

例如,当模型在处理一段关于物理定律的文本时,若要预测下一个 token,它并非直接根据已有的词频统计等简单模式来进行预测,而是需要先理解前面文本中提到的物理概念、定律的适用条件等关键信息。然后,基于这些理解,生成诸如 “考虑到作用在物体上的力与质量的关系,接下来可能会提及加速度” 等推理序列,最终再确定下一个 token 是 “加速度” 或其他相关词汇。通过这种方式,模型能够深入挖掘文本背后的语义和知识,而不仅仅停留在表面的 token 级相关性上。

RPT 的多重优势

可扩展性和通用性 :RPT 实现了在无标注文本数据上的通用目的强化学习,这是一次重大的突破。传统上,强化学习在 LLM 中的应用往往受限于数据的标注要求,无论是基于人类反馈的数据还是带有可验证答案的标注数据,都难以大规模获取。然而,RPT 完全依赖于无标注的文本数据,这意味着它可以充分利用互联网上海量的文本资源。无论是新闻报道、学术文献,还是社交媒体上的帖子等各种文本数据,都可以成为 RPT 的训练素材。这极大地拓展了模型训练的数据来源,使其能够涵盖各种不同的领域、主题和语言风格,为 LLM 的通用性提供了坚实的数据基础。例如,利用大量的文学作品训练 RPT 模型,使其能够更好地理解和生成具有文学风格的文本,如小说创作、诗歌生成等;在技术文档领域的应用,则有助于模型准确地理解和生成复杂的代码文档、技术报告等内容。

降低奖励劫持风险 :在强化学习中,奖励劫持一直是一个令人头疼的问题。一些复杂的、基于学习的奖励模型可能会出现漏洞,模型可能会利用这些漏洞来获取高奖励,而并非通过真正有价值的学习行为。RPT 则巧妙地避免了这一问题,它采用直接的规则奖励信号,即根据预测的正确性给予奖励。这种奖励机制简单而有效,只关心模型预测的下一个 token 是否与实际文本匹配,而不涉及复杂的、容易被操纵的奖励模型。例如,在预测数学问题解答文本中的下一个 token 时,只有当模型准确地预测出正确的数学符号或概念词汇时,才会获得奖励。这使得模型能够专注于学习真正有价值的推理和预测能力,确保训练过程的稳定性和目标的准确性。

促进泛化而非死记硬背 :RPT 通过鼓励模型生成推理序列,促使模型深入理解文本背后的逻辑和知识。这种方式使得模型能够跳出单纯的记忆模式,转而培养起强大的泛化能力。在传统的训练方式下,模型可能会倾向于记忆训练数据中的常见表达模式和 token 顺序,从而在面对新的、未见过的文本时表现不佳。而 RPT 则引导模型在训练过程中主动思考文本的内在逻辑和语义关系,探索多种可能的推理路径。例如,在处理一段关于历史事件的文本时,模型不会仅仅记住某个历史事件的固定表述,而是会思考事件发生的原因、影响等相关因素。这样一来,当遇到关于同一历史时期但不同具体事件的文本时,模型也能够基于已有的知识和推理能力进行准确的预测和理解,大大增强了其在不同文本场景下的适应性和泛化性能。

提升推理过程中的计算资源分配效率 :RPT 在预训练阶段就巧妙地引入了推理过程,这相当于为模型分配了更多的 “思考” 时间。在传统的训练方式中,模型主要侧重于对下一个 token 的直接预测,而在 RPT 中,模型需要先进行推理序列的生成,然后再进行预测。这个过程使得模型在训练时就能够充分地利用计算资源,对每个 token 的预测进行更深入的思考和分析。类似于在推理时扩展(inference-time scaling)中为每个预测分配更多的计算资源来提升准确性,RPT 将这种计算资源的高效利用提前到了训练阶段。例如,在训练过程中,模型可能会花费更多的计算资源来分析上下文中的关键信息、探索多种可能的推理路径等,从而在训练完成后,能够在推理过程中更快速、更准确地进行预测,提高整体的性能表现。

RPT 的方法论:构建智能模型的精巧架构

预训练任务:next-token-reasoning
任务定义与推理序列生成算法

具体生成算法如下:

1. 初始化 :以输入序列为起点,模型首先对上下文进行编码,提取关键语义信息。这一步骤就像人类在阅读一篇文章时,先快速浏览开头部分,对文章的主题和大致方向有一个初步的把握。例如,当输入的上下文是关于物理定律的描述时,模型会识别出其中涉及的物理概念、定律的名称等关键信息,为后续的推理和预测奠定基础。

2. 迭代推理 :在每一步推理中,模型基于当前上下文和已生成的推理序列,生成下一个推理 token。这一过程会考虑语义连贯性、语法正确性以及与最终预测目标的相关性。例如,在处理数学问题时,模型可能会生成诸如 “考虑变量之间的关系”“应用定理公式” 等推理 token。这就好比人类在解决数学问题时,会一步步地分析问题的条件、应用相关的数学定理和公式,逐步向答案靠近。每一个推理 token 都是模型思考过程中的一个 “脚印”,记录着它对问题的逐步深入理解。

3. 预测生成 :在完成推理序列后,模型基于推理序列和原始上下文,生成对下一个 token 的预测。预测过程会综合推理序列中的信息,以确定最可能的 token。以数学问题为例,经过一系列的推理 token 后,模型可能会预测下一个 token 是某个数学符号或特定的数值,这个预测结果是基于前面的推理过程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值