【Reasoning】o1复现整合-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_41094332/article/details/145734072

调研文章

《Marco-o1: Towards Open Reasoning Modelsfor Open-Ended Solutions》

arxiv: https://arxiv.org/abs/2411.14405
github: https://github.com/AIDC-AI/Marco-o1
Marco-o1: Towards Open Reasoning Modelsfor Open-Ended Solutions

实现了一个Marco-o1-COT数据集并进行了开源。
通过MCTS扩展解空间：通过LLM与MCTS进行集合，利用LLM输出置信度来指导搜索并扩展解空间。
推理行动策略：实现了一个新颖的推理行动策略和反思机制，在MCTS内探索不同的动作粒度，并促使模型进行自我反思。
应用于翻译任务：研究LRM在机器翻译任务中的应用，探索多语言和翻译领域的推理时间尺度规律。

《LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning》

arxiv: https://arxiv.org/abs/2410.02884
github: https://github.com/SimpleBerry/LLaMA-O1/tree/main、https://github.com/trotsky1997/MathBlackBox/tree/main
LLaMA-Berry: Pairwise Optimization for Olympiad-level MathematicalReasoning via O1-like Monte Carlo

本文提出了一种先进的数学推理框架LLaMA-Berry。该框架结合Monte Carlo Tree Search和Self-Refine (SR-MCTS)来优化推理路径，并利用两两奖励模型对不同路径进行全局评估。通过利用大型语言模型的自我批判和重写能力，我们的SR-MCTS通过促进对解空间的更有效探索。为了指导搜索过程，我们提出了配对偏好奖励模型(PPRM)，通过由人类反馈强化学习(RLHF)训练的指令跟随能力来预测解决方案之间的成对偏好。最后，采用增强博尔达计数(Enhanced Borda Count, EBC)方法将两两偏好合成为全局分位数分数进行评价。

《Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B: A Technical Report》

arxiv: https://arxiv.org/abs/2406.07394
github: https://github.com/trotsky1997/mathblackbox
Accessing GPT-4 level Mathematical OlympiadSolutions via Monte Carlo Tree Self-refine with LLaMa-3

这篇论文提出了一种名为OmegaPRM的新型分治风格蒙特卡罗树搜索（MCTS）算法，通过引入二分搜索算法来高效识别COT中的第一个错误快速定位错误位置，用于自动收集高质量的过程监督数据。

《Improve Mathematical Reasoning in LanguageModels by Automated Process Supervision》

arxiv: https://arxiv.org/abs/2406.06592
Improve Mathematical Reasoning in LanguageModels by Automated Process Supervision

《O1 Replication Journey – Part 2: Surpassing O1-preview through Simple Distillation Big Progress or Bitter Lesson?》

arxiv: https://arxiv.org/abs/2411.16489
github: https://github.com/GAIR-NLP/O1-Journey
O1 Replication Journey – Part 2:Surpassing O1-preview through Simple DistillationBig Progress or Bit

作者在探索复制o1工作时，发现一种简单而有效的方式：通过prompt促使o1对复杂问题生成长思维链，对其进行知识蒸馏。将得到的数据进行SFT训练后，发现效果可以超越o1-preview模型。同时，在其他场景（安全、幻觉、通用场景）进行了实验，但其模型在不同领域展示了卓越的泛化能力，作者认为数学问题解决中固有的系统思维模式和结构化方法可以有效地转移到其他领域。

o1复现的相同点

基本公共流程

1、确定基座模型和领域数据集。
2、使用MCTS扩展解空间，对问题的解进行探索。
3、每步推理过程中引入自我反思机制对问题进行改写 / 检查 / 纠正错误等操作。
4、引入一个评判机制，对问题的解进行评判确定奖励值。
5、训练或者直接使用该框架推理。

o1复现的不同点

差异点

1、搜索机制：

第一篇文章中，尝试了步骤级、64token级和32token级作为一个动作。发现步骤级在英文上效果更好，64token级在中文上效果更好。
第二篇和第三篇文章中，采用结果级。
第四篇文章采用步骤级。

2、反思机制：

第一篇文章中，主要在所有思考后，引入了一条自我质疑的Prompt『“Wait! Maybe I made some mistakes! I need to rethink from scratch.”』，自我批判，实现纠错。
第二篇和第三篇文章中，结合了self-refine，根据『评判』结果，对答案进行更新『重写』，获取新的解。

3、评判机制：

第一篇文章中，通过计算置信度得分来获得每个状态的值。将softmax函数应用于前5个备选token的对数概率，计算置信度分数。在获得rollout序列中所有令牌的置信度得分后，计算所有token的平均置信度得分，从而得出总体奖励得分。
第二篇文章中，提出了成对偏好奖励模型，该模型利用了一个综合偏好数据集将PPRM的训练过程构建为问答任务，比较两个解决方案的质量。然后，使用基于Borda计数的全局排名得到局部分位数分数和全局分位数分数，最终二者的加权和便为奖励值分数。
第三篇文章中，通过一个评估模型对精炼后的答案进行从-100~100的评分以获得一个奖励值，并计算其Q值。同时，分别设计了prompt约束、满分抑制和重复采样三个约束。
第四篇文章，常规的PRM进行训练。

4、方式差异：
第一、二、三和四篇，均尝试使用MCTS。第五篇，通过对o1对蒸馏知识，使用长思维作为数据对基座模型进行SFT训练。