当大模型预训练数据不再像以前增长，OpenAI o1应对机制的探索和理解

本文链接：https://blog.youkuaiyun.com/AIBigModel/article/details/144887119

作者：叶千树，阿里巴巴集团自然语言处理
原文：https://zhuanlan.zhihu.com/p/13764430167

前言-当预训练数据不再增长

Ilya Sutskever在12月份NeurIPS 2024演讲，提到LLM预训练数据不再增长，因为只有一个互联网。这句话完整意思应该是相对于以前，OpenAI 提出LLM的scaling laws（Scaling Laws for Neural Language Models[1]), 模型的性能随着数据，计算量，模型参数大小的增加而增加。在之前模型参数量从GPT-1 117M 到GPT-3 175B，训练数据也从4.5GB文本到499 billions token (GPT-3使用的预训练数据量没有找到官方数据，一般认为在570B到45T之间)。GPT-4不再开源不清楚用了多少数据，近期开源的llama3.1使用了15.6T的预训练tokens （llama2 使用了1.8T ), Qwen2.5使用了18T的预训练tokens( Qwen2 使用了 7T )。模型的参数也许还在膨胀，但至少现在，数据却不能再像以前那般百倍增长。

Ilya Sutskever演讲中提出了三个方向来解决数据不再像以前增长的情况下却还要提升模型性能这个挑战：代理（agent）, 生成数据（synthetic data），推理计算时间（openai o1模型系列推理能力）。

在9月份OpenAI推出o1模型系列，在Learning to Reason with LLMs[2] 就提到：We have found that the performance of o1 consistently improves with more reinforcement learning (train-time compute) and with more time spent thinking (test-time compute). o1的性能随着更多的强化训练（训练时间）和更多的思考时间（推理时间）而持续增强。然后OpenAI 9月份在推特上招募ML工程师组建multi-agents研究组，其认为multi-agent是达到更好的AI推理的一种路径(We view multi-agent as a path to even better AI reasoning)。

在某种程度上，Ilya Sutskever提到的问题和思路，也是OpenAI看到的问题和解决问题的思路。区别是OpenAI在其9月份的文章中暗搓搓的埋进去，Ilya Sutskever在12月份演讲中强调了一遍。

Multi-agents比较好理解，蜂群拥有比单个蜜蜂更高的能力，人类社会也拥有比个体更强的能力。本文不做涉及。

问题在于怎么理解更多的强化训练和更多的思考时间。OpenAI提到了这两个方向，他们很可能是这么实践的，但是我们还不知道怎么去做。

因而衍生一些问题，例如更多的强化训练和以前RLHF（Reinforce learning from human feedback）有什么区别，更多的思考时间和以前的COT(chain of thought)有什么区别。本文主要聚焦在更多的强化训练和更多的思考时间两方面的探索和理解，通过梳理，希望找到这两方面可实践的方法，去知道怎么做。

内化推理链

基于当前的一些认知，更倾向于OpenAI o1当前的方案是通过强化内在推理链的方式来增强其推理能力。有两篇论文很值得参考。

Dualformer: Controllable Fast and Slow Thinking by Learning with Randomized Reasoning Traces[21] 这个论文的重点在于通过训练集的设置，利用模型对于模式（pattern）的学习和识别，可以让模型自主选择是否展开cot，提供了一个非常好的实践. 其主要思路是对reasoning的过程做一定程度的裁剪，来让模型在复杂问题的推理过程中，能有通过类似直觉的快速思考能力,也就是在一个system2 的思考模式中引入了 system1 的快速跳过能力。该思路有来自于两个观测：一个是search transformer (用完整的trace做训练的)在inference 阶段，会产生比a*更短的推理过程。第二个是他认为人类在某些pattern下会产生直觉/短路，也就是人思考是混合了系统1/系统2.

图8 来自Dualformer: Controllable Fast and Slow Thinking by Learning with Randomized Reasoning Traces

如图8所示，对于maze(迷宫，找到一条从入口到出口的道路）

prompt 是迷宫的设置：入口，出口，墙（阻挡因素）（也就是模型的输入）。plan 是解决方案。

图9 来自Dualformer: Controllable Fast and Slow Thinking by Learning with Randomized Reasoning Traces

如图9， trace (A* search tree)是探索/推理过程。

模型在训练/推理过程中，输入是 pompt，输出是 trace + plan。

他对trace做了做了结构性的裁剪，分成了4个程度

• 1.去除 close
• 2.去除 close + cost
• 3.去除 close + cost + samled(create)
• 4.去除整个trace

在训练过程中，对每个sample做抽样（p0, p1, p2, p3, p4）, p0是不去除（0.45）， p1=p2=p3=1/6, p4=0.05。

论文中提到的，通过插入控制符来决定是系统1思考，系统2思考，还是模型自动决定，本质背后是利用了训练语料的结构和模型对于模式的学习/识别。

• 决定系统1快思考，在prompt之后加入 bos plan (plan是训练材料中输出解决方案的首个字符，也就是引导模型直接输出答案，训练材料中有5%的数据是直接输出答案)
• 决定系统2慢思考，在prompt之后加入了 bos create (create是A* trace的起始符号，也就是引导模型偏向于产生trace)
• 自动决定，在prompt之后不加控制符，期望模型能基于某些pattern, 自己决定最佳方案是什么

本质上还是期望模型能有学习/识别/理解pattern，能够被符号控制快思考（不含中间推理过程）或者慢思考（含中间推理过程）。

Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection[22] 这篇文章一个重要观点在于他认为模型能通过自省，自己学会是否需要获取额外信息，学会判断这些额外信息是否和问题相关，是否基于额外信息生成答案。也就是生成模型需要自己去判断一个问题是否需要补充额外信息进来，才能回答该问题。

因此给了一个假设，假设通过足够充分且多样的学习，模型能识别问题所属领域（这是数学，物理，迷宫， 24点计算等），在这个前提下，模型有该领域的过程展开能力并能展开基于PRM指导的推理链，并输出最终答案。

• 需要什么格式的数据：在本节中，提到了分门别类的产生不同领域的标志，来触发模型对于该领域问题对应的系统1/系统2的思维链展开（在dualformer中显示模型会基于某些特定符号展开思维链）。
• 怎么构建这种格式的数据：在PRM一节中，提到了如何从无到有来让模型输出某种能够展开中间思考的的格式，以便后续模型训练。
• 怎么学习这个数据：在更多强化学习中，提到如何将训练数据背后的reward逻辑内化到模型。

上述既是内化推理链的逻辑。

总结

让我们回到文章开始的两个问题

问1：更多的强化训练和以前RL HF（Reinforce learning from human feedback）有什么区别？

答：以前RLHF主要关注的是偏好对齐，

而现在，我们假设，经由强化训练，能够将某些逻辑内化在模型内部。而这个内化的过程，需要足够多的训练数据和引导，因此围绕一个有足够参数，足够训练数据的过程奖励模型, 一个有足够参数，对KL变化容忍度高的base待优化模型，抽样阈值K远大于30，可以高达1000， 2000从而有足够多样性的抽样数据，充分利用所有数据的训练流程等因素，来得到更多的强化学习。最终通过这个强化训练，将思维链内化在模型内部。

两者在技巧上有共通点，但现在对强化学习有更明确的目的，将思维链内化在模型内部。

问2: 更多的思考时间和以前的COT(chain of thought)有什么区别？

答：以前的cot, 无论是prompt cot 还是 reasoning cot, 都是某种用户显式的引导或者筛选。而现在更多的思考时间，是指一种内化在模型中的cot展开能力，通过强化训练，将思维链内化在模型内部，通过模型的自省能力（知道自己在回答什么类型的问题），能主动的展开该思维链，或者基于模型对于模式的识别和理解，快速回答问题。

在最近的Open AI论文Deliberative alignment: reasoning enables safer language models [23]还是在讲同一个事情，通过更好的reward model, 经由更多的训练数据，更好的强化学习流程，构建一个具有内在推理链的模型。

我们都或多或少理解其中一部分逻辑，真正的困难在于懂的怎么构建和开始构建这么一个通用且具有内在推理链的模型，因为它必然需要巨大的投入并且会碰到众多的困难。但是庆幸且最重要的是，OpenAI向大家展现了那个目标是真实存在且可达，并且留下了一些如何到达的痕迹，给我们学习和探索。

引用链接

[1] Scaling Laws for Neural Language Models:https://arxiv.org/pdf/2001.08361
[2]Learning to Reason with LLMs:https://openai.com/index/learning-to-reason-with-llms/
[3]Training language models to follow instructions with human feedback :https://arxiv.org/abs/2203.02155
[4]理解LLM偏好对齐和DPO:https://zhuanlan.zhihu.com/p/716947703
[5]Let’s Verify Step by Step :https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf
[6]Self-Consistency Improves Chain of Thought Reasoning in Language Models:https://arxiv.org/abs/2203.11171
[7]Math-Shepherd: Verify and reinforce LLMs step-by-step without human annotations:https://arxiv.org/pdf/2312.08935
[8]Multi-step Problem Solving Through a Verifier: An Empirical Analysis on Model-induced Process Supervision:https://arxiv.org/pdf/2402.02658
[9]Improve Mathematical Reasoning in Language Models by Automated Process Supervision:https://arxiv.org/pdf/2406.06592
[10]Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning:https://arxiv.org/pdf/2410.08146
[11]Scaling Laws for Reward Model Overoptimization:https://arxiv.org/pdf/2210.10760
[12]Rule Based Rewards for Language Model Safety:https://arxiv.org/pdf/2411.01111v1
[13]Training language models to follow instructions with human feedback:https://arxiv.org/abs/2203.02155
[14]Chain-of-Thought Prompting Elicits Reasoning in Large Language Models :https://arxiv.org/pdf/2201.11903
[15]Large Language Models are Zero-Shot Reasoners:https://arxiv.org/pdf/2205.11916
[16]Automatic Chain of Thought Prompting in Large Language Models :https://arxiv.org/pdf/2210.03493
[17]Self-Consistency Improves Chain of Thought Reasoning in Language Models:https://arxiv.org/abs/2203.11171
[18]Chain-of-Thought Reasoning without Prompting:https://arxiv.org/pdf/2402.10200
[19]Tree of Thoughts: Deliberate Problem Solving with Large Language Models :https://arxiv.org/pdf/2305.10601
[20]Let's reward step by step: Step-Level reward model as the Navigators for Reasoning:https://arxiv.org/pdf/2310.10080
[21]Dualformer: Controllable Fast and Slow Thinking by Learning with Randomized Reasoning Traces:https://arxiv.org/pdf/2410.09918
[22]Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection:https://arxiv.org/abs/2310.11511
[23]Deliberative alignment: reasoning enables safer language models :https://openai.com/index/deliberative-alignment/