OpenAl又火了,这次是o1又带给大家惊艳。网上的博主已经有了真真假假的各种评测,我这篇来一点硬核的,解读OpenAl o1背后的论文:Let’s Verify Step by Step
大模型在给定的上下文资料正确的情况下也有可能出现幻觉,这篇论文提出通过逐步验证的方式纠正大模型在处理复杂多步骤推理任务表现。论文的核心是比较过程监督(提供每个中间推理步骤的反馈)和结果监督(仅提供最终结果的反馈)在训练模型解决复杂数学问题中的效果。
- 结果监督:指仅使用模型链式推理的最终结果来训练奖励模型的方法。在这种监督方式中,奖励模型(ORMs)只根据模型生成的最终答案是否正确来进行反馈,而不考虑推理过程中的具体步骤。
- 过程监督:提供每一步中间推理步骤的反馈。这种监督方式可以更精确地指出错误发生的位置,并直接奖励模型沿着人类认可的推理路径进行推理。相比之下,结果监督只提供关于最终结果的反馈。
这篇论文的方法论主要包括以下几个步骤,每一步都有其独特的用途,以下是对论文方法论的快速解读:
-
生成器 (Generator) 的设置和训练:
为了使解析各个步骤更为简单,作者训练生成器以换行分隔的逐步格式生成解决方案。论文作者先用少量示例生成MATH训练问题的解决方案,然后从中筛选出能得出正确最终答案的解决方案,最后,用此数据集对基础模型进行单个周期的微调。此步骤的主要目的是教会生成模型以特定格式生成解答,而不是教模型新技能。 -
数据收集:
为了收集过程中监督数据,人工数据标记人员逐步对生成的问题解决方案进行标注。 -
数据收集方法:
• 研究人员让人类数据标注者针对生成的MATH问题(MATH问题是从各种来源收集和整理而来的。这些问题包括高质量的数学问题及其解决方案、涉及数学问题和概念的自由形式讨论文本,以及一些合成数据。这些问题在数据集MathMix中进行了预训练,增强了模型的数学推理能力,同时确保问题的答案是自动可检验的。)的逐步解决方案进行逐步反馈。
• 标注者任务是对每个步骤的正确性进行标注,这些步骤由模型生成。

最低0.47元/天 解锁文章
620






