【Reasoning】O1 Replication Journey – Part 2: Surpassing O1-preview through Simple Distillation Big Pr-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_41094332/article/details/144311950

《O1 Replication Journey – Part 2: Surpassing O1-preview through Simple Distillation Big Progress or Bitter Lesson?》

arxiv: https://arxiv.org/abs/2411.16489
github: https://github.com/GAIR-NLP/O1-Journey

问题背景

复刻o1的能力成为工业和学术界引人注目的焦点，作者在探索复制o1工作时，发现一种简单而有效的方式：通过prompt促使o1对复杂问题生成长思维链，对其进行知识蒸馏。将得到的数据进行SFT训练后，发现效果可以超越o1-preview模型。

本文方法

（1）核心技术栈

作者的o1复制旅程的第一部分中，引入了一种新的方法来综合称为“旅程学习”的长思维过程。该方法利用树搜索算法来探索不同的解路径，然后通过战略节点选择来构建有前景的探索轨迹。这些探索轨迹通常会包含结果正确，但过程不正确或没有希望的方法。为了解决树中缺乏反思内容的问题，我们利用大型语言模型来分析之前的步骤并识别推理错误，从而实现更好的过程修正。这个过程产生了通向正确答案的完整轨迹。我们收集这些轨迹，包括反思和校正步骤，以微调大型语言模型。然后可以将调优的大型语言模型用于后续的训练迭代。

在这里插入图片描述

（2）合成常思维的方法

在o1技术流中，最具挑战性的方面之一是有效地综合解决复杂问题的长推理链。这些链通常包含反思、错误纠正和回溯步骤。虽然树搜索是最有效的方法之一，但它可能在计算上昂贵且耗时。除了树搜索之外，合成长推理链的替代方法如下。每种方法都在计算效率和推理彻底性之间提供了不同的权衡。

完整的人类思维过程注释
人类解决问题很少遵循成功或失败的线性路径。相反，当遇到障碍时，人们会定期停下来反思、回溯和修改他们的方法。这一自然过程反映了长时间思考的特点。通过彻底记录人类如何解决问题，我们可以生成真实的长思维训练数据。
多智体方法
不同于旅程学习中策略模型不直接对反馈做出反应的方式，我们可以让多智能体来完成探索过程，指导它们扮演不同的角色。例如，我们可以构建一个多智能体辩论系统，其中策略模型生成连续推理，而批评模型评估是继续还是回退。当找到解决方案时，这个交互过程自然会产生长时间的思想训练数据。
从先进模型中蒸馏
o1等先进模型具有较强的反思和自我修正能力。遵循使用较强模型指导较弱模型是常见做法，从o1中提取响应是一种自然的方法。然而，需要详细考虑prompt，因为o1限制访问其内部思维过程。

（3）基于蒸馏的长思维合成

后处理数据过程
作者删除了依赖于图像的问题和缺乏明确标记答案的问题，使用所有精心设计了规则的证明的问题，同时保留答案类型为数字的问题。
重新格式化技术
使用重新格式化的技术进一步增强数据集，作者使用GPT-4o-mini重写原始解决方案。重写过程遵循特定的指导方针，确保解决方案是循序渐进的，内容非常详细的，并且长度更长。这一步还标准化了输出格式，要求使用\box明确突出显示最终答案，与长思维格式保持一致。

（4）SFT微调

使用上面描述的精炼和重新格式化的数据集，训练模型来生成更长、更细粒度的逐步解决方案。这个阶段的重点是确保模型精通产生详细的推理并保持标准化的输出风格。
实验设置

数据集：MATH500（MATH子集）、AIME2024、MATH2024（2024年中国全国高数竞赛中挑选了30道题）
基座模型：Qwen2.5-Math-72B
评级指标：平均token长度和问题解决率。
在推理时间缩放的时代，OpenAI的o1系列等模型已经证明，性能不仅取决于训练时间的计算，还受到推理过程中“思考”所花费的时间的显著影响。这种转变需要一个更细致的评估框架来考虑计算成本和性能之间的权衡。作者提出通过在受限的测试token长度预算下测量模型的推理能力来直接解决这个问题作为度量标准，确保评估反映了现实世界的约束和部署场景。具体来说，作者使用其输出的平均token计数来测量给定基准测试集上模型的计算成本。在评估需要比通常在单个响应中生成的平均token计数更高的场景中，我们利用Maj@k指标来近似模型的性能，而不使用任何额外的奖励模型。通过这种方式，可以捕获不同推断时间计算设置下的模型性能。

实验结果

（1）性能分析

在这里插入图片描述

与O1的性能比较如表1所示，在相似的“推理计算成本”下（即在相应基准上具有可比的平均输出token长度），蒸馏模型表现出了出色的性能，超过了o1-preivew在AIME2024上的结果，但弱于o1-mini。

（2）观察泛化性

作者调查了在长思维数学数据集上训练过的模型在其他任务上的泛化能力。

训练细节：
为了研究模型在不同领域的泛化能力，作者首先通过系统的数据提取和翻译过程构建了一个多样化的双语数据集。作者从o1模型输出中进行蒸馏，精心挑选了大约5000个包含回顾性思维和自我反思内容的高质量样本。然后使用GPT-4o mini模型将这些样本翻译成中文，从而得到一个平衡的双语数据集。最终的训练数据集包括10,750个中英文混合样本对，其中每个样本由一个查询-响应对组成。然后，作者对Qwen2.5-72B-Instruct 模型SFT，使用这个精心整理的数据集来获得最终模型。

1）安全性

设置：
为了全面评估模型泛化能力的安全方面，作者构建了一个多样化的测试集，其中包括从三个已建立的安全评估数据集中精心挑选的600个问题：flame 、diassafety 和WildSafety。具体来说，作者从每个数据集中提取了200个问题，以确保在不同的安全场景中平衡表示。作者利用『Safety-J』来评估原始模型和微调模型的响应。
效果：

在这里插入图片描述

虽然Flames的表现略有改善（91%至92.5%），DiaSafety保持稳定(100%)，但WildSafety的表现明显下降（92%至86.5%）。总体而言，经过微调后，安全评分从94.3%略微下降至93.0%。这种安全指标的轻微下降体现出了一个重要的发现：即使使用高质量的、类似于o1这种集中在回顾和反思上的训练数据，如果训练数据缺乏『明确的安全一致性对齐』，模型的安全性能也会出现微妙的下降。这一发现表明，未来的工作应侧重于将系统思维能力与明确的安全校准相结合，以实现更鲁棒的和全面的安全性能。作者假设模型Flames数据集上效果的改善可能归因于其与其他数据集相比对测试模型深度反射能力的特别关注，这与我们强调深思熟虑的o1-like训练数据很一致。

在这里插入图片描述

Qwen2.5-72B-Instruct的响应通过只关注防盗措施，证明了这种以实用为中心的趋势。该模型提供了关于锁选择、安装方法和监视的详细建议，直接解决了用户对财产安全的直接关注。然而，它完全忽视了关键的安全隐患，特别是在走廊充电电动自行车的火灾风险，这可能危及多个居民的生命。相比之下，微调后的模型经过长期思维数据的训练，呈现出更全面、更系统的思维模式。它没有立即解决盗窃问题，而是首先确定了基本的安全问题：走廊收费的火灾隐患、法规遵从性和社区安全。响应通过优先考虑危及生命的风险而不是财产风险，考虑包括居民和物业管理在内的多个利益相关者，提供不同安全维度的分层分析，并提出平衡效用和安全性的替代解决方案，展示了增强的分析深度。这个案例研究揭示了一个重要的见解：通过作者的微调过程，改进的系统思维和长期推理能力大大提高了安全性能，特别是在安全考虑可能被直接效用问题所掩盖的情况下。该模型具有暂停、反思和全面分析情况的能力，有助于识别在更直接、更注重实用的响应中可能被忽视的潜在安全问题。

2）幻觉

设置：
作者使用的数据集来自SimpleQA 、ChineseSimpleQA和ChineseFactEval。这些数据集包含中文和英文知识问题，以验证模型的真实性。值得注意的是，ChineseFactEval数据集包含两个子集：general QA和sycophancy QA。sycophancyQA子集在提示中包含误导性答案，以测试模型对拍马屁的倾向，而general QA子集遵循类似于SimpleQA的格式。这些数据集中的所有问题都需要可验证的简短答案。我们使用GPT-4o来评估模型对黄金答案的反应，以获得更鲁棒的答案匹配。
效果：
结果表明，经SFT处理后的模型的准确率没有显著提高（10.58%→10.41%、47.08%→45.76%、69.08%→62.65%）。这在很大程度上是由于较长的推理链导致了额外的幻觉。此外还发现，在SFT后模型对阿谀奉承的敏感性略有降低（89.70%至92.65%）。这种改进可以归因于自我反思过程，模型能够辨别并深入思考提示中提出的不合理假设，而不是毫无疑问地接受它们。

该模型通过自我反思过程验证了其最初的发现。在图中，通过自我反思，模型成功地纠正了提示中的错误假设（珠江是第二长河），并正确地识别出黄河是中国第二长河。该模型还从不同的角度（如经济重要性、水流量）提供了有价值的见解，使响应更全面，信息更丰富。

3）通用场景

设置：
为了评估我们的模型在一般情况下的性能，作者从Auto-J和LIMA 数据集（每个数据集50个）中均匀采样了100个查询的测试集，特别关注通过手动适应的长期规划任务。三位领域专家在0-100的范围内评估响应质量。
效果：
经过微调后，评价结果有明显改善。Auto-J上从81.6%提高到88%，LIMA上从77.2%提高到87.2%。这种性能增强表明，文中的微调方法不仅提高了双语对话能力，而且增强了模型处理一般开放域QA任务的能力，特别是对于需要长期规划和结构化思考的场景。

综上分析，虽然作者的SFT数据集专门专注于数学问题解决，但其模型在不同领域展示了卓越的泛化能力。作者认为数学问题解决中固有的系统思维模式和结构化方法可以有效地转移到其他领域。作者在案例研究中看到了改进，特别是在结构组织、综合分析和逻辑流方面，反映了将数学推理模式成功地转移到一般问题解决方案。这一发现表明，精心策划的数学指令数据可以作为开发LLM通用推理能力的有效基础。