这篇文章猜测了GPT-o1的推理模式?《A Comparative Study on Reasoning Patterns of OpenAI‘s o1 Model》

摘要

使大型语言模型(LLMs)能够处理更广泛的复杂任务(例如编码、数学)引起了许多研究人员的极大关注。随着LLMs的不断发展,增加模型参数的数量虽然能带来性能的提升,但这种提升的效果逐渐减弱,同时伴随着沉重的计算成本。最近,OpenAI的o1模型展示了推理策略(即测试时计算方法)也能显著增强LLMs的推理能力。然而,这些方法背后的机制仍未被深入探索。在我们的研究中,为了探究o1的推理模式,我们将其与现有的测试时计算方法(BoN、分步BoN、Agent Workflow和Self-Refine)进行了比较,使用OpenAI的GPT-4o作为基础模型,在三个领域的通用推理基准测试(即数学、代码和常识推理)上进行了实验。具体来说,首先,我们的实验表明o1模型在大多数数据集上取得了最佳性能。其次,对于搜索多样化响应的方法(如BoN),我们发现奖励模型的能力和搜索空间都限制了这些方法的上限。第三,对于将问题分解为多个子问题的方法,代理工作流由于使用了领域特定的系统提示来规划更好的推理过程,因此表现优于逐步BoN。第四,我们总结了o1的六种推理模式,并在不同的推理基准测试中提供了详细的分析。最后,代码和数据集已在https://github.com/Open-Source-O1/o1_Reasoning_Patterns_Study发布。

1. 介绍

大型语言模型(LLM)在多项任务中取得了显著成功,如常识推理、编程、数学和对话等领域。为了进一步提升模型性能,研究人员不断增加模型参数数量并扩展训练数据。然而,简单地扩展模型参数的方法正逐渐接近瓶颈,性能提升的效率逐步降低。

最近,诸如 Best-of-N(BoN)和 Self-Refine 等测试时计算方法被提出,旨在推理阶段提升模型性能,并已被证明比单纯增加模型参数更为高效。然而,当前缺乏研究对比不同测试时计算方法在各任务上的有效性,而此类研究能够为开发新模型的研究人员提供重要指导。此外,理解 o1 模型的推理机制对于增强大型语言模型的能力也具有重要意义。

为了解决上述问题,我们选取了 OpenAI 的 o1 模型,结合多种测试时计算方法,并使用 GPT-4o 作为基础模型进行对比。根据 OpenAI 的 o1 报告,该模型在数学和编程等领域显示了出色的改进。因此,我们选取了四个基准——HotpotQA、Collie、USACO 和 AIME,涵盖了三个关键的推理领域。对于某些对当前大型语言模型挑战较小的基准(如 HotpotQA 和 Collie),我们采用了一种投票方法,使用四个精选模型过滤掉无法被超过两个模型正确回答的样本。接下来,我们选择了四种测试时计算方法(包括 BoN、分步 BoN、代理工作流和 Self-Refine)作为基线方法,且均使用 GPT-4o 作为基础模型。对于 BoN 和分步 BoN,我们使用 GPT-4o 作为奖励模型,以选择最适合给定样本的响应。Self-Refine 则直接使用其 GitHub 代码实现。代理工作流方法则在 HotpotQA 和 Collie 上使用最新的代理框架,在 USACO 和 AIME 上使用 GPT-4 系列模型。

我们在筛选后的基准数据集上进行了全面实验,得出了以下有价值的发现:

  • OpenAI 的 o1 模型在几乎所有基准测试中都取得了最佳结果,特别是在编程和数学任务中使用基于链式推理(CoT)的方式表现出了显著的提升。
  • 对于分步方法而言,领域特定的系统提示至关重要。特别是,Agent Workflow 方法显著增强了模型的性能,且与 o1 模型的表现相当接近,而 Step-wise BoN 对模型能力的提升主要体现在 HotpotQA 任务上。此外,我们假设,通过一系列领域特定的系统提示,Agent Workflow 不仅可以减少不必要的推理步骤,还可以更准确地对齐推理问题。
  • 我们总结了 o1 模型在四个基准数据集中的六种推理模式,分别是系统分析(SA)、方法复用(MR)、分而治之(DC)、自我改进(SR)、上下文识别(CI)和强调约束(EC)。我们观察到 o1 模型最常用的推理模式是 DC 和 SR,这可能是 o1 取得成功的关键。此外,不同任务中的推理模式也有所不同。具体来说,对于常识推理任务,o1 更倾向于使用 CI 和 EC;而在数学和编程任务中,o1 主要依赖于 MR 和 DC。
  • 我们还分析了 o1 模型在不同任务中的推理 token 数量,发现不同任务中的推理 token 数量差异较大。

2. 实验设置

为了全面评估 OpenAI 的 o1 模型的能力,我们选择并筛选了覆盖三个领域(即常识推理、数学和编程)的四个基准数据集。接下来,我们展示了 o1、GPT-4o 以及一些传统测试时计算方法的结果。

2.1 BenchMark

常识推理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

青云遮夜雨

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值