1B LLM 能否超越 405B LLM?重新思考计算最优测试-时间规模化

25年2月来自上海AI实验室、清华大学、哈工大和北邮的论文“Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling”。

测试-时间规模化 (TTS) 是通过在推理阶段使用额外计算来提升大语言模型 (LLM) 性能的重要方法。然而,当前的研究并没有系统地分析策略模型、过程奖励模型 (PRM) 和问题难度如何影响 TTS。这种分析的缺乏限制对 TTS 方法的理解和实际使用。本文关注两个核心问题:(1)在不同的策略模型、PRM 和问题难度级别之间规模化测试-时间计算的最佳方法是什么?(2)规模化计算可以在多大程度上提高 LLM 在复杂任务上的性能,较小的语言模型是否可以通过这种方法胜过较大的语言模型?通过对 MATH-500 和具有挑战性的 AIME24 任务进行全面实验,得到以下结果:(1)计算最优的 TTS 策略高度依赖于策略模型、PRM 和问题难度的选择。(2)通过计算最优的 TTS 策略,极小的策略模型可以胜过较大的模型。例如,在 MATH-500 上,1B LLM 可以超过 405B LLM。此外,在 MATH-500 和 AIME24 上,0.5B LLM 的表现优于 GPT-4o,3B LLM 超过 405B LLM,7B LLM 击败 o1 和 DeepSeek-R1,同时推理效率更高。这些发现表明,根据每个任务和模型的具体特点调整 TTS 策略非常重要,并表明 TTS 是一种有前途的增强 LLM 推理能力方法。

大语言模型 (LLM) 已在多个领域表现出显著的改进 (OpenAI, 2023;Hurst,2024;Anthropic,2023;OpenAI,2024;DeepSeek-AI,2025)。最近,OpenAI o1 (OpenAI, 2024) 证明,测试-时间规模化 (TTS) 可以通过在推理时分配额外的计算来增强 LLM 的推理能力,使其成为提高 LLM 性能的有效方法 (Qwen Team, 2024;Kimi Team,2025;DeepSeek-AI,2025)。

TTS 方法可分为两大类:(1)内部 TTS,使用长思维链 (CoT) 训练 LLM 缓慢“思考”(OpenAI,2024;DeepSeek-AI,2025);(2)外部 TTS,使用固定 LLM 通过采样或基于搜索的方法来提高推理性能(Wu,2024;Snell,2024)。外部 TTS 的关键挑战是如何以最佳方式规模化计算,即为每个问题分配最佳计算(Snell,2024)。当前的 TTS 方法使用过程奖励模型 (PRM) 来指导生成过程并选择最终答案,从而有效地规模化测试-时间计算(Wu,2024;Snell,2024;Beeching,2024)。这些 TTS 方法涉及几个重要因素,例如策略模型、PRM 和问题难度级别。然而,对于策略模型、PRM 和问题难度如何影响这些 TTS 策略的系统分析有限。这一限制阻碍社区充分了解此方法的有效性并开发计算最优 TTS 策略的见解。

LLM 测试-时间规模化。规模化 LLM 测试-时间计算,是提高性能的有效方法 (OpenAI, 2024)。先前的研究探索多数投票 (Wang et al., 2023)、基于搜索的方法 (Yao et al., 2023; Xie et al., 2023; Khanov et al., 2024; Wan et al., 2024) 和细化 (Qu et al., 2024) 来提高性能。对于验证引导的测试-时间计算,Brown (2024) 探索使用重复采样和域验证器的推理计算,而 Kang (2024);Wu (2024);Snell (2024) 进一步探索具有过程奖励指导的基于搜索方法,Wang (2024c) 将此设置扩展到 VLM。为了消除对外部奖励模型和大量样本生成的需求,Manvi (2024) 提出一种自适应高效测试-时计算的自我评估方法。最近的一项工作 (Beeching,2024) 通过具有多样性的搜索方法探索 TTS。然而,这些工作缺乏对强验证器或具有不同大小/能力的策略的评估。

提高 LLM 的数学推理能力。提高数学推理能力的现有方法,可分为训练-时方法和测试-时方法。对于训练时方法,先前的研究探索大规模数学语料库预训练(OpenAI,2023;Azerbayev,2024;Shao,2024)和监督微调(Luo,2023;Yu,2024;Gou,2024;Tang,2024;Tong,2024;Zeng,2024)以提高数学能力。另一系列研究探索自我训练和自我完善策略(Zelikman,2022;Gulcehre,2023;Trung,2024;Hosseini,2024;Zelikman,2024;Zhang,2024a;Setlur,2024a;Kumar,2024;Cui,2025),通过对自我生成的解决方案进行微调来提高推理能力。最近,许多工作提高具有长 CoT 的数学推理能力 (Qin et al., 2024; Huang et al., 2024; Kimi, 2024; DeepSeek-AI et al., 2025; Qwen Team, 2024; Skywork, 2024; Zhao et al., 2024),例如 OpenAI o1 (OpenAI, 2024) 表现出非常强大的长思考推理能力。
对于测试-时间方法,基于提示的方法已经得到广泛研究,以在不改变模型参数的情况下增强推理能力。诸如思维链 (CoT) (Wei et al., 2022) 及其变型 (Yao et al., 2023; Leang et al., 2024) 之类的技术指导模型将问题分解为可管理的子步骤,从而提高数学推理的准确性和连贯性。除了提示策略之外,自我改进技术 (Madaan,2023) 允许模型检查和更正其输出,而外部工具集成 (Gao,2023;Chen,2023) 利用程序解释器或符号操纵器执行精确的计算和验证。自我验证方法 (Weng,2023) 使模型能够评估其自身推理过程的正确性,从而进一步提高鲁棒性。这些测试-时间策略补充训练-时间增强,共同促进 LLM 数学推理能力的显着提高。

过程奖励模型。先前的研究表明,PRM 比 ORM 更有效 (Uesato,2022;Lightman,2024)。然而,收集高质量的 PRM 数据(例如 PRM800K(Lightman,2024))通常成本高昂。研究人员探索通过直接蒙特卡洛估计(Wang,2024b)自动收集 PRM 数据、检测 ORM 的相对分数(Lu,2024)和使用二分搜索的高效 MCTS(Luo,2024)进行自动收集 PRM 数据。最近,从优势建模(Setlur,2024b)、𝑄 -值排名(Li & Li,2024)、隐性奖励(Yuan,2024)和熵正则化(Zhang,2024b)的角度探索更先进的 PRM。此外,还有更多开源 PRM 发布(Xiong,2024;Skywork,2024;Zhang,2024b;Li & Li,2024;Yuan,2024;Zhang,2025),在数学任务上表现出色。随着 PRM 的快速发展,ProcessBench(Zheng,2024)和 PRMBench(Song,2025)被提出来对 PRM 进行全面评估。Zhang(2025)为 PRM 的实际开发提供指导方针,并发布最新的数学任务中最强大的 PRM。

以下分析 TTS 实验的影响因素。

设置

将推理问题表述为马尔可夫决策过程 (MDP) (Sutton & Barto, 2018),由多元组 (𝒮, 𝒜, 𝒫, R, 𝛾) 定义,其中 𝒮 是状态空间,𝒜 是动作空间,𝒫 是转换函数,R 是奖励函数,𝛾 ∈ [0, 1] 是折扣因子。给定提示 𝑥 ∼ 𝒳,具有参数 𝜃 的策略会生成初始动作 𝑎_1 ∼ 𝜋_𝜃(· | 𝑠_1),其中 𝑠1 = 𝑥 是初始状态。该策略获得奖励 R(𝑠_1, 𝑎_1),状态转换为 𝑠_2 = [𝑠_1, 𝑎_1],其中 [·, ·] 表示两个字符串的连接。此过程持续到episode终止,终止方式是达到最大步数或生成 token。长度为 𝐻 的轨迹表示为 𝜏 = {𝑎_1, 𝑎_2, · · · , 𝑎_𝐻}。

分析考虑三种 TTS 方法:Best-of-N (BoN) (Brown,2024)、波束搜索 (Snell,2024) 和多样化验证器树搜索 (DVTS) (Beeching,2024)。正如 Snell (2024) 指出的那样,由于多步采样,前瞻搜索效率低下,因此不评估它或其他涉及前瞻操作的方法,例如蒙特卡洛树搜索 (MCTS)。TTS 方法如图所示:

请添加图片描述

Best-of-N。在 BoN 方法中,策略模型生成 𝑁 个响应,然后应用评分和投票方法来选择最终答案。

波束搜索。给定波束宽度 𝑁 和波束大小 𝑀,策略模型首先生成 𝑁 个步骤。验证器选择前 𝑁 个步骤进行后续搜索。在下一步中,策略模型为每个选定的上一步采样 𝑀 个步骤。此过程重复进行,直到达到最大深度或生成 token。

多样化验证器树搜索。为了增加多样性,DVTS 通过将搜索过程划分为 𝑁/M 个子树来扩展波束搜索,每个子树都使用波束搜索独立探索。如 Beeching (2024) 所示,DVTS 在具有较大计算预算 𝑁 的简单和中等问题上表现优于波束搜索。在 Chen (2024) 中观察到类似的趋势,其中增加并行子树的数量被证明比在相同预算下增加束宽度更有效。

为了最大限度地提高 TTS 的性能,Snell (2024) 提出一种测试-时间计算优化规模化策略,该策略选择与给定测试-时间策略相对应的超参,以最大限度地提高特定提示的性能优势。给定提示 𝑥,让 Target(𝜃, 𝑁, 𝑥) 表示具有参数 𝜃 和计算预算 𝑁 的策略模型在 𝑥 上产生的输出分布。

重思考计算-最优测试-时间规模化

计算-最优 TTS 旨在为每个问题分配最优计算(Snell,2024)。之前关于 TTS 的研究使用单个 PRM 作为验证器(Snell,2024;Wu,2024;Beeching,2024)。Snell(2024)在策略模型的响应上训练 PRM,并将其用作验证器以相同的策略模型进行 TTS,而 Wu(2024 );Beeching(2024)使用在不同策略模型上训练的 PRM 进行 TTS。从强化学习 (RL) 的角度来看,在前一种情况下获得基于策略的 PRM,在后一种情况下获得离线 PRM。基于策略的 PRM 会为策略模型的响应产生更准确的奖励,而离线 PRM 通常会由于分布不均 (OOD) 问题而产生不准确的奖励(Snell,2024;Zheng,2024)。

对于计算最优 TTS 的实际应用,为每个策略模型训练一个 PRM 以防止 OOD 问题在计算上是昂贵的。因此,在更一般的环境中研究计算最优 TTS 策略,其中 PRM 可能在与用于 TTS 策略模型不同的策略模型上进行训练。对于基于搜索的方法,PRM 指导每个响应步骤的选择,而对于基于采样的方法,PRM 在生成后评估响应。这表明 (1) 奖励会影响所有方法的响应选择;(2) 对于基于搜索的方法,奖励也会影响搜索过程。

为了分析这些要点,用以 Llama-3.1-8B-Instruct 为策略模型、以 RLHFlow-PRM-Mistral-8B 和 RLHFlow-PRM-Deepseek-8B 为 PRM 的集束搜索进行初步案例研究。结果表明,奖励显著影响生成过程和结果。RLHFlow-PRM-Mistral-8B 为简短的响应分配高奖励,导致答案错误,而使用 RLHFlow-Deepseek-PRM-8B 搜索会产生正确答案但使用更多token。经验表明,奖励对 TTS 性能和输出tokens有很大影响。
基于这些分析,将奖励整合到计算最优 TTS 策略中。对于基于采样的规模化方法,输出分布无需考虑奖励模型。这种奖励-觉察策略可确保计算-最优规模化适配策略模型、提示和奖励函数,从而为实际 TTS 提供更通用的框架。

为了考虑问题难度对 TTS 的影响,Snell(2024)根据 Pass@1 准确率分位数将问题分为五个难度级别。然而,使用 MATH 中的难度级别(Hendrycks,2021)或基于 Pass@1 准确率分位数的 oracle 标签(Snell,2024)效果不佳,因为不同的策略模型具有不同的推理能力。如图所示,Qwen2.5-72B-Instruct 在 76.2% 的 MATH-500 问题上实现 80% 以上的 Pass@1 准确率。因此,使用绝对阈值而不是分位数来衡量问题难度。具体而言,根据 Pass@1 准确率定义三个难度级别:简单(50% ∼ 100%)、中等(10% ∼ 50%)和困难(0% ∼ 10%)。

请添加图片描述

如何以最佳方式规模化测试-时间计算?

在此旨在回答以下问题:
Q1:TTS 如何通过不同的策略模型和 PRM 进行改进?
Q2:TTS 如何针对不同难度级别的问题进行改进?
Q3:PRM 是否对特定的响应长度有偏见或对投票方法敏感?

数据集。在竞赛级数学数据集上进行实验,包括 MATH-500(Lightman,2024)和 AIME24(AI-MO,2024)。MATH-500 包含来自 MATH(Hendrycks,2021)测试集的 500 个代表性问题,该子集按照 Snell(2024);Beeching(2024 年)使用。由于最近的 LLM 在数学推理方面取得重大进展(OpenAI,2024;DeepSeek-AI 等,2025),将更具挑战性的 AIME24 纳入实验。

策略模型。对于测试-时间方法,用不同大小的 Llama 3(Dubey,2024)和 Qwen2.5(Yang,2024b)系列的策略模型。对所有策略模型使用 Instruct 版本。

过程奖励模型。考虑使用以下开源 PRM 进行评估:
• Math-Shepherd(Wang,2024b):Math-Shepherd-PRM-7B 在 Mistral-7B(Jiang,2023)上进行训练,使用在 MetaMath(Yu,2024)上微调的 Mistral-7B 生成的 PRM 数据。
• RLHFlow 系列 (Xiong,2024 年):RLHFlow 包括 RLHFlow-PRM-Mistral-8B 和 RLHFlow-PRM-Deepseek-8B,它们分别基于 Mistral-7B 数据进行训练,并经过 Meta-Math (Yu,2024) 和 deepseek-math-7b-instruct (Shao,2024) 的微调。这两个 PRM 的基础模型都是 Llama-3.1-8B-Instruct (Dubey,2024)。
• Skywork 系列(Skywork o1,2024):Skywork 系列包括 Skywork-PRM-1.5B 和 Skywork-PRM-7B,分别在 Qwen2.5-Math-1.5B-Instruct 和 Qwen2.5-Math-7B- Instruct(Yang,2024c)上进行训练。训练数据由在数学数据集上微调的 Llama-2(Touvron,2023)和 Qwen2-Math(Yang,2024a)系列模型生成。
• Qwen2.5-MathSeries(Zhang etal.,2025):评估 Qwen2.5-Math-PRM-7B 和 Qwen2.5-Math-PRM-72B,分别在 Qwen2.5-Math-7B-Instruct 和 Qwen2.5-Math-72B-Instruct(Yang et al.,2024c)上进行训练。训练数据是使用 Qwen2-Math(Yang et al.,2024a)和 Qwen2.5-Math 系列模型(Yang et al.,2024c)生成的。在列出的所有 PRM 中,Qwen2.5-Math-PRM-72B 是数学任务中最强大的开源 PRM,而 Qwen2.5-Math-PRM-7B 是具有 7B/8B 参数的 PRM 中最强大的 PRM,如 Zhang et al.(2025)所示。

评分和投票方法。按照 Wang (2024a) 的方法,考虑三种评分方法:PRM-Min、PRM-Last 和 PRM-Avg,以及三种投票方法:Majority Vote、PRM-Max 和 PRM-Vote。为了获得最终答案,首先使用评分方法来评估答案。对于长度为 𝐻 的轨迹,使用不同评分方法对每条轨迹的得分计算如下:(1) PRM-Min 根据所有步骤中的最小奖励对每条轨迹进行评分,即得分 = min_R{R_𝑡}。(2) PRM-Last 根据最后一步的奖励对每条轨迹进行评分,即得分 = R_𝐻。 (3) PRM-Avg 根据所有步骤的平均奖励对每条轨迹进行评分,即得分 = ∑︀R_𝑡/H。然后,投票方法汇总得分以确定最终答案。多数投票选择获得多数票的答案(Wang,2023),而 PRM-Max 选择得分最高的答案,PRM-Vote 首先累积所有相同答案的得分,然后选择得分最高的答案。

使用 OpenR(一个开源 LLM 推理框架)作为代码库。对于计算预算,在大多数实验中使用 {4, 16, 64, 256}。步骤的划分遵循 \n\n 格式,与先前的工作一样(Xiong,2024;Zhang,2025)。对于波束搜索和 DVTS,波束宽度设置为 4。CoT 的温度为 0.0,而其他方法的温度为 0.7。对于 CoT 和 BoN,将新 token 的最大数量限制为 8192。对于基于搜索的方法,每个步骤的 token 限制为 2048,总响应的 token 限制为 8192。

PRM 很难在策略模型和任务之间推广。如下图所示,对于 Llama-3.1-8B-Instruct,使用 Skywork 和 Qwen2.5-Math PRM 基于搜索方法的性能随计算预算的增加而显著提高,而使用 Math-Shepherd 和 RLHFlow PRM 进行搜索的结果仍然相对较差,甚至比多数投票更差。对于 Qwen2.5-7B-Instruct,使用 Skywork-PRM-7B 和 Qwen2.5-Math PRM 进行搜索的性能随着预算的增加而增长,而其他 PRM 的性能仍然很差。

最佳 TTS 方法取决于所使用的 PRM。如下图所示,在使用 Math-Shepherd 和 RLHFlow PRM 时,BoN 在大多数情况下优于其他策略,而使用 Skywork 和 Qwen2.5-Math PRM 时,基于搜索的方法表现更好。出现这种差异是因为使用 PRM 进行 OOD 策略响应会导致次优答案,因为 PRM 在策略模型中表现出有限的泛化能力。此外,如果使用 OOD PRM 选择每个步骤,则很可能会获得陷入局部最优的答案并降低性能。这也可能与 PRM 的基础模型有关,因为使用 PRM800K(Lightman,2024)在 Qwen2.5-Math-7B-Instruct 上训练的 PRM 比以 Mistral 和 Llama 作为基础模型的 PRM(Zhang,2025)泛化得更好。这些结果表明,最佳 TTS 策略的选择取决于所使用的特定 PRM,这强调了在计算最佳 TTS 时考虑奖励信息的重要性。

请添加图片描述

在下图中,虽然两种策略模型的 Pass@k 准确率随计算预算的增加而大幅提高,但 TTS 的性能提升仍然适中。这些结果表明,PRM 在不同策略模型和任务之间的推广尤其具有挑战性,尤其是对于更复杂的任务。

请添加图片描述

还探讨 TTS 性能与不同 PRM 的过程监督能力之间的关系。如图所示,TTS 性能与 PRM 的过程监督能力呈正相关,拟合函数为 𝑌 = 7.66 log(𝑋) + 44.31,其中 𝑌 表示 TTS 性能,𝑋 表示 PRM 的过程监督能力 (Zhang et al., 2025)。

请添加图片描述

最佳 TTS 方法因策略模型而异。为了研究策略模型参数与最优 TTS 方法之间的关系,用 Qwen2.5 系列 LLM(Yang et al., 2024b)进行实验,包括参数大小为 0.5B、1.5B、3B、7B、14B、32B 和 72B 的模型。如图结果表明,最优 TTS 方法取决于具体的策略模型。对于小型策略模型,基于搜索的方法优于 BoN,而对于大型策略模型,BoN 比基于搜索的方法更有效。出现这种差异的原因是大型模型具有更强的推理能力,不需要验证器进行逐步选择。相反,小型模型依靠验证器选择每一步,确保每个中间步骤的正确性。

请添加图片描述

遵循 Snell et al. (2024) 的研究,对不同难度级别的任务进行全面的评估。但是,使用 MATH 中定义的难度级别(Hendrycks,2021)或基于 Pass@1 准确率分位数的 oracle 标签(Snell,2024)并不合适,因为不同的策略模型表现出不同的推理能力。为了解决这个问题,根据 Pass@1 准确率的绝对值将难度级别分为三组:简单(50% ∼ 100%)、中等(10% ∼ 50%)和困难(0% ∼ 10%)。

最佳 TTS 方法因难度级别不同而不同。对于小型策略模型(即参数少于 7B),BoN 更适合简单问题,而波束搜索更适合较难问题。对于参数在 7B 到 32B 之间的策略模型,DVTS 对于简单和中等问题表现良好,而波束搜索对于困难问题更可取。对于具有 72B 参数的策略模型,BoN 是所有难度级别的最佳方法。

PRMs 偏向步骤的长度。虽然在之前的实验中在相同的预算下执行 TTS,但不同 PRM 的推理tokens数量差异很大。例如,给定相同的预算和相同的策略模型,使用 RLHFlow-PRM-Deepseek-8B 进行规模化的推理token数量始终大于 RLHFlow-PRM-Mistral-8B,几乎是 2 倍。RLHFlow 系列 PRM 的训练数据是从不同的 LLM 中采样的,这可能导致输出长度的偏差。为了验证这一点,分析 RLHFlow-PRM-Mistral-8B3 和 RLHFlow-PRM-Deepseek-8B4 训练数据的几个属性。如表所示,DeepSeek-PRM-Data 的平均每响应 token 数和平均每步骤 token 数均大于 Mistral-PRM-Data,说明 RLHFlow-PRM-Deepseek-8B 的训练数据比 RLHFlow-PRM-Mistral-8B 的训练数据长,这可能导致输出结果偏长。我们还发现 Qwen2.5-Math-7B 缩放后的推理 token 数大于 Skywork-PRM-7B,但性能非常接近,说明使用 Skywork-PRM-7B 搜索比使用 Qwen2.5-Math-7B 搜索更有效率。

请添加图片描述

PRMs 对投票方法敏感。从下表的结果可以看出,Skywork-PRM-7B 与 PRM-Vote 配合的效果比与 PRM-Max 配合的效果好,而 Qwen2.5-Math-PRM-7B 对投票方式的敏感度不高。主要原因是 Qwen2.5-Math PRM 的训练数据经过 LLM-as-a-judge 处理(Zheng et al., 2023),去除了训练数据中被错误标记为正步骤的中间步骤,使得输出的大奖励值更有可能是正确的。这说明 PRM 的训练数据对于提高在搜索过程中发现错误的能力很重要。

请添加图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值