无需RL也能强推理!哈佛新采样方法靠 “幂分布 + MCMC”,基础模型推理竟追平 GRPO

原文、这里 👉👉 【推理生成】最新整理:无需RL也能强推理!哈佛新采样方法靠 “幂分布 + MCMC”,基础模型推理竟追平 GRPO 无需RL也能强推理!哈佛新采样方法靠 “幂分布 + MCMC”,基础模型推理竟追平 GRPO

精简阅读版本

论文基本信息

  • 论文标题:Reasoning with Sampling: Your Base Model is Smarter Than You Think

  • 作者与单位:Aayush Karan,Yilun Du 哈佛大学。

  • 发表时间与来源:arXiv:2510.14901v1(2025‑10‑16)https://arxiv.org/pdf/2510.14901

  • 代码:https://github.com/aakaran/reasoning-with-sampling

  • 核心任务/数据集:在 MATH500、HumanEval、GPQA、AlpacaEval 2.0 上评测,既含可验证推理任务也含不可验证通用任务(页 8 的“Evaluation”与数据集描述)。

  • 可视化总览:论文第 2 页图 1 展示方法在四类任务上与基线/GRPO 的对比条形图。

1. 本文解决了什么问题

  • RL 后训练是否真正“学到”新能力? 文献质疑很多推理提升其实是对基座模型分布的“锐化”,并指出 RL 常出现多样性塌缩、pass@k→single‑shot 的再分配等现象(引言与相关工作)。作者转而追问:仅靠采样能否在推理时把这些能力“唤出”

  • 避免 RL 的现实痛点:RL 需要可验证奖励、数据清洗与大规模超参搜索,训练不稳定且常牺牲多样性。本文欲在不训练的前提下,获取与 RL 相当的单次推理性能,同时保持多样性。见摘要与第 1 节。

2. 核心创新点

  • 把“幂分布(power distribution)”作为推理目标:直接对基座 LLM 的序列概率 p(x) 做幂次 pα(x)(α>1)以显式“锐化”分布,从而上调少而优的未来路径,而非仅靠低温逐 token 采样。作者严格证明低温采样 ≠对整段序列的幂分布采样(命题 1,式(4)–(8),页 4–5),并给出直观示例与观察。

  • 自回归 MCMC(Metropolis–Hastings)采样器:用 MH 只依赖未归一化的相对权重即可从 pα 采样(式(9) 与图 3,页 6),候选由“随机位置截断+重采样”的提议分布生成,满足不可约与非周期性。

  • 块式逐步“幂采样”(Algorithm 1):为降低长序列 MH 的混合时间,作者提出中间分布链 πk∝p(x0:kB)a,每次扩展 B 个 token 后做 NMCMC 次 MH,再把新前缀“固定”继续下一段(算法 1,页 7)。这是单次输出的推理时扩展:通过额外计算换取更高质量样本。

  • 推理时可伸缩:给出生成 token 成本近似式(式(12)),并实证 α与 NMCMC的影响(图 6),α≈4 稳健,NMCMC≥2 就有显著提升。

3. 结果相较于以前有哪些提升

总体结论(第 2 页图 1 & 第 9 页表 1):在多种基座模型(Qwen2.5‑Math‑7B、Qwen2.5‑7B、Phi‑3.5‑mini‑instruct)和多任务上,幂采样在单次推理上接近乃至超过 RL(GRPO),且在pass@k 多样性上显著优于 RL。

  • Qwen2.5‑Math‑7B(表 1)

    • MATH500:0.496 → 0.748(+25.2 个百分点),接近 GRPO 的 0.785。

    • HumanEval:0.329 → 0.573(+24.4pp),超过 GRPO(0.537)。

    • GPQA:0.278 → 0.389(+11.1pp),接近 GRPO(0.399)。

    • AlpacaEval 2.0:1.61 → 2.88,高于 GRPO(2.38)。以上数据均见第 9 页表格。

  • Qwen2.5‑7B(表 1)

    • MATH500:0.498 → 0.706(+20.8pp);

    • HumanEval:0.329 → 0.622(+29.3pp,高于 GRPO 的 0.561);

    • GPQA:0.278 → 0.318

    • AlpacaEval 2.0:7.05 → 8.59优于 GRPO 的 7.62)。

  • Phi‑3.5‑mini‑instruct(表 1)

    • HumanEval:0.213 → 0.732(+51.9pp,显著超过 GRPO 的 0.134);

    • MATH500:0.400 → 0.508

    • GPQA:0.273 → 0.364(略高于 GRPO 的 0.359);

    • AlpacaEval 2.0:14.82 → 17.65(优于 GRPO 的 16.74)。

  • 多样性与 pass@k:图 4 与图 5 显示,RL 样本集中在最高似然/最高置信区域而多样性塌缩;幂采样也偏向高似然但保持更大分散度,pass@k 曲线在 k>1 时显著优于 RL,且高 k 处逼近基座上限(第 9–10 页)。

  • 推理风格与长度:在 MATH500,幂采样的平均输出679 token,与 GRPO(671)相当,但并未显式鼓励长解链(第 10 页)。

  • 方法洞察:图 4 的直方图表明幂采样与 GRPO 都从基座的高似然/高置信区取样,而幂采样“不塌缩”,解释了其 single‑shot 逼近 RL + multi‑shot 超过 RL 的现象(第 9 页)。

4. 局限性总结

  • 并非处处超越 RL:在 RL 的“域内”任务(如 MATH500,Qwen2.5‑Math‑7B)仍略低于 GRPO(0.748 vs 0.785),说明 RL 在特定分布上仍有优势(第 9 页表 1)。

  • 计算开销更高:推理时需要多次重采样与 MH 接受‑拒绝。作者估算生成 token 总量约为标准推理的 8.84×(在 NMCMC=10、T=679、B=192 的设定下,式(12)与第 11 页分析),虽然仍可能比完整 RL 训练经济,但对在线推理延迟是实打实的负担。

  • 混合时间与超参依赖:尽管提出块式中间分布缓解混合慢问题,但性能仍依赖 B、NMCMC、α的设定;α虽较稳健(图 6 左),仍需调参以兼顾质量与速度(第 11 页)。

  • 仅利用基座似然:方法假设“高似然≈好推理”,在某些任务/模型此假设或不成立;且论文暂未覆盖多模态、超长上下文或需要外部约束/安全目标的情形(结论与讨论)。

深入阅读版本

原文、这里 👉👉 无需RL也能强推理!哈佛新采样方法靠 “幂分布 + MCMC”,基础模型推理竟追平 GRPO 无需RL也能强推理!哈佛新采样方法靠 “幂分布 + MCMC”,基础模型推理竟追平 GRPOhttps://mp.weixin.qq.com/s/5o3wXwCbSOprxfaeGuWl4Q

导读

前沿推理模型在众多学科领域展现了惊人的能力,这主要得益于通过强化学习(RL)对后训练大语言模型(LLMs)进行优化。然而,尽管这一范式取得了广泛成功,现有文献大多致力于解析在强化学习过程中出现但基线模型中并不存在的全新行为。在本研究中,我们从一个不同的角度切入问题,转而探讨是否可以通过纯采样方法,在不进行任何额外训练的情况下,于推理阶段从基线模型中激发类似的推理能力。受用于从锐化分布中采样的马尔可夫链蒙特卡罗(MCMC)技术启发,我们提出了一种简单的迭代采样算法,该算法利用基线模型自身的似然函数。在多种基线模型上,我们展示了该算法在多种单次任务(包括 MATH500、HumanEval 和 GPQA)中显著提升了推理性能,其效果几乎媲美甚至超越了强化学习后的表现。此外,我们的采样器避免了强化学习后训练中常见的多样本多样性下降问题。至关重要的是,我们的方法无需训练、无需精心构建的数据集,也无需验证器,表明其在易于验证的领域之外也具有广泛的适用性。

引言

强化学习(Reinforcement Learning, RL)已成为提升大模型(Large Language Models, LLMs)推理能力的主导范式 [Guo et al., 2025, Hu et al., 2025]。借助通常可自动验证的奖励信号,主流的强化学习技术已被成功应用于前沿模型的后训练阶段,在数学、编程和科学等领域的性能提升显著 [Hendrycks et al., 2021, Li et al., 2022, Rein et al., 2024]。

尽管强化学习(RL)在大模型(LLMs)中取得了广泛的实证成功,大量文献围绕以下问题展开:在 RL 后训练过程中出现的能力是否是基础模型中不存在的根本性新行为?这就是所谓的分布 sharpening [He et al., 2025, Shao et al., 2025, Yue et al., 2025]:即后训练分布是否仅仅是基础模型分布的“更锐利”版本,而不是将概率质量放在基础模型不太可能生成的推理迹(trace)上。

几项研究指出,使用强化学习进行后训练(RL-posttraining)来学习新能力存在困难。Heet al. [2025], Song et al. [2025] 比较了基础模型与后训练模型的 pass@k(多步)得分,发现对于较大的 k,基础模型实际上表现更优,而后者则因生成多样性下降而受损。在这种情况下,强化学习似乎将 pass@k 的性能重新分配给了单步性能,代价是多步推理能力的降低。Yue et al. [2025] 还指出,经过强化学习后的推理迹(Trace)紧密集中在基础模型的高似然/高置信度区域,似乎是从已有的高似然能力中抽取的。我们在图 4 中的实验中展示了这一点。尽管如此,强化学习在单步推理上的优势迄今为止仍然不可否认。

在本文中,我们提出一个令人惊讶的结果:直接从基础模型进行采样即可实现与强化学习相当的单次推理能力。

我们提出了一种针对基础模型的采样算法,该算法在推理时利用额外的计算资源,实现了单次采样的性能,这种性能在领域内推理任务上几乎匹配强化学习后训练(RL-posttraining)的效果,甚至在领域外推理任务上能够超越。此外,我们观察到,使用我们的采样器时,生成多样性不会下降;事实上,我们的 pass@k(多轮采样)性能显著优于强化学习。我们在基准测试中特别对比了组相对策略优化(GRPO),这是提升大语言模型推理能力的标准强化学习算法 [Shao et al., 2024]。

至关重要的是,我们的算法是 无需训练、无需数据集且 无需验证器的,避免了强化学习方法的一些固有缺陷,包括为避免训练不稳定性而进行的大量超参数搜索、对精心策划的多样且庞大的后训练数据集的需求,以及无法保证获得真实值验证器/奖励信号 [Prabhudesai et al.,2025]。

我们的贡献可以概括如下: (i) 我们引入了幂分布作为推理任务中一种有用的采样目标。由于它可以使用基础大模型显式指定,因此无需额外训练。 (ii) 我们进一步引入了一种基于马尔可夫链蒙特卡罗(MCMC)算法的近似采样方法,该方法通过迭代地根据基础模型的似然对 token 子序列进行重采样,以实现对幂律分布的采样。 (iii) 我们通过实验证明了我们的算法在多种模型(Qwen2.5-Math-7B、Qwen2.5-7B、Phi-3.5-mini-instruct)和推理任务(MATH500、HumanEval、GPQA、AlpacaEval 2.0)上的有效性。实验结果表明,直接从基础模型中进行采样即可达到与 GRPO 相当的效果。事实上,在某些领域外的任务上,我们的算法始终显著优于强化学习基准。此外,在多次采样过程中,我们避免了强化学习后训练(RL-posttraining)所面临的多样性崩溃问题,在单样本到 few-shot 推理能力以及样本多样性方面均实现了最佳平衡。

我们的结果共同表明,现有的基础模型在单次推理方面的能力远超当前采样法所揭示的程度。

相关工作

大模型的强化学习。强化学习(RL)在大模型的后训练中起到了关键作用。早期,基于人类反馈的强化学习(RLHF)[Ouyang et al., 2022] 被提出作为一种技术,利用训练好的奖励模型将大模型与人类偏好对齐。最近,基于可验证奖励的强化学习(RLVR)作为一种强大的新型后训练技术崭露头角,许多研究 [Guo et al., 2025, Lambert et al., 2024, Hu et al.,2025, Zeng et al., 2025] 发现,由自动化验证器在生成结束时给出的简单奖励能够显著提升模型在数学和编程等复杂推理任务上的表现。

群体相对策略优化(GRPO)算法是这些进展的核心 [Shao et al., 2024]。在此成功基础上,后续诸多工作探索了使用源自内部信号的奖励信号,例如自熵 [Zhao et al., 2025]、置信度 [Prabhudesai et al., 2025],甚至随机奖励 [Shaoet al., 2025]。与这些工作类似,本文研究了基础模型似然作为提升推理性能的机制,但其关键优势在于该方法是 无需训练的。

基于大模型的自回归 MCMC 采样。先验工作已探索将经典的 MCMC 技术与自回归采样相结合。许多情景,包括红队测试、提示工程和个性化生成,都可以被表述为从基础大语言模型分布中进行采样,但朝着外部奖励函数进行倾斜。Zhao et al. [2024] 提出学习中间价值函数,并在序列蒙特卡罗(SMC)框架中使用这些函数 [Chopin, 2004],其中维护多个候选序列并根据其预期未来奖励进行更新。

类似地,Faria et al. [2024] 提出了一种梅特罗波利斯-哈斯廷斯(MH)算法,该算法不维护多个候选者,而是执行迭代重采样,同样根据预期奖励进行更新。从方法论上看,我们的采样算法与后一种工作最为相似,但关键区别在于,我们的目标采样分布完全由基础大语言模型指定,避免了对外部奖励的需求。

扩散模型的退火采样在统计物理和蒙特卡罗文献中,从 pα 采样被称为从一个 退火或 加温分布 [Neal, 1998] 采样,并在扩散领域引发了新的研究兴趣。事实上,在传统的马尔可夫链蒙特卡罗(MCMC)采样中,退火被用作避免采样过程中模式坍缩的方法,从而更准确地从复杂的多模态分布 [Łatuszyński et al., 2025] 中进行采样。这种方法如今重新以推理时的采样方法形式出现,用于扩散模型,旨在引导预训练模型趋向于“倾斜分布”[Du et al., 2023,Kim et al., 2025, Karan et al., 2025, Wang et al., 2025, Kong et al., 2025, Zhang et al., 2025]。

当传统强化学习技术表现出模式坍缩时,物理科学中的应用 [Sambridge, 2014] 则需要多模态采样。为此,诸如 Du et al. [2023], Wang et al. [2025], Kim et al. [2025] 的工作构建了一系列退火分布,以平滑地实现从基础扩散分布到倾斜分布的过渡。其他工作 [Skretaet al., 2025, Xu et al., 2025] 则有意针对从 pα 采样以实现 α > 1 ,作为生成更高质量样本的一种手段,尤其在生成更具可设计性的蛋白质方面广受欢迎 [Geffner et al., 2025]。

初步研究

设 X 为一个有限的 token 词表,令 XT 表示 token 序列的有限集合 x0:T = (x0, x1, . . . , xT ),其中对所有 i 有 xi ∈ X ,且 T ∈ Z≥0 为某个非负整数。为方便起见,对于给定的 t ,令x<t = (x0, . . . , xt−1) 和 x>t = (xt+1, . . . , xT ) ,x≤t 和 x≥t 的定义类似。一般情况下,x 指的是一个 token 序列 x0:T ,其中 T 是隐式给出的。

然后,LLM 通过自回归学习所有 t 的条件 token 分布 p(xt|x<t) ,定义了 token 序列 X T上的分布 p ,通过恒等式给出 联合分布

$$p(x_{0:T})=\prod_{t=0}^Tp(x_t|x_{<t}). $$="" 

从 p 采样一个序列,我们只需逐个 token 从大型语言模型中采样,使用条件分布,这根据(1) 直接从联合分布中采样。

幂分布的 MCMC 采样

在本节中,我们介绍了针对基础模型的采样算法。我们的核心直觉源于第 1 节提出的分布锐化概念。所谓 “锐化”一个参考分布,是指重新加权该分布,使得高似然区域进一步被加权,而低似然区域则被减权,从 而将样本偏向于参考分布下的高似然区域。如果强化学习微调后的模型确实只是基础模型的锐化版本,那 么我们应该能够显式地指定一个目标采样分布,以实现相同的效果。

我们按如下方式组织本节内容。第 4.1 节介绍这一目标锐化分布,并提供一些数学上的动机,说明其样本 为何适用于推理任务。第 4.2 节引入一类通用的马尔可夫链蒙特卡罗(MCMC)算法,旨在从该目标分布 中实际采样,最后,第 4.3 节详细描述了我们在大模型(LLMs)中的具体实现。

基于功率分布的推理

一种自然的方法是通过从幂分布 pα 抽样来细化分布 p 。由于

由此可知,对 p 取指数会 增加高似然序列 (x ) 的相对权重,同时 降低低似然序列 (x′ ) 的相对权重(参见图 2 的可视化)。

一种相关但广为人知的锐化策略是 低温采样 [Wang et al., 2020],它在每一步对条件性下一个 token 分布进行指数运算:

其中,temperature 为 τ = 1/α。一个常见的误解是,对 T 个 3 token 进行采样等价于从 pα采样;然而,这种说法在微妙但至关重要的方面是错误的,我们将在下文中阐明这一点。

Proposition 1. 低温采样不从功率分布 pα 采样。

证明. 我们证明了在每个时间步 t,相关的条件下一个 token 分布是不同的。对于 xt 的条件分布由 pα 给出

使用贝叶斯法则

我们可以将低温边缘 (3) 重写为

为便于理解,忽略规范化处理,从 pα 采样时,token xt 的相对权重由一个 指数之和给出

$$p_{\mathrm{pow}}(x_{t}|x_{t}p(x_{0},\ldots,x_{t},\ldots,x_{T})^{\alpha}. $$

同时,低温采样对应的相对权重由一个求和的指数给出

$$p_{\mathrm{temp}}(x_t|x_{t}}p(x_0,\ldots,x_t,\ldots,x_T)\right)^\alpha. $$

由于每种采样策略对应的下一个 token 预测的相对权重各不相同,因此每种采样器对应的序列联合分布也必定不同。因此,低温采样给出的序列分布与 pα 给出的分布 并不相同。

一种直观的理解方式是,低温度采样并未考虑指数运算如何在时间步 t 处增强“未来路径”的似然,而是“贪婪地”对所有这些未来似然进行平均(求和的指数 (8))。另一方面,从pα 进行采样时,由于在计算下一个 token 预测权重之前,会先对所有未来路径进行指数运算(指数的和 (7)),因此其固有地考虑了未来补全。这带来了以下后果:

Observation 1. 功率分布会提高那些未来路径少但似然高的 token 的权重,而低温度采样则会提高那些未来路径多但似然低的 token 的权重。

xample 1. 我们可以通过一个简单例子观察到这一现象。让我们考虑 token 词表 X ={a, b} ,并将注意力限制在二元 token 序列 (x0, x1) :aa, ab, ba, bb 。设

p(aa) = 0.00, p(ab) = 0.40, p(ba) = 0.25, p(bb) = 0.25,

因此

p(x0 = a) = 0.40, p(x0 = b) = 0.50.

令 α = 2.0 。在 pα 下,我们有

ppow(x0 = a) ∝ 0.002 + 0.402 = 0.160, ppow(x0 = b) ∝ 0.252 + 0.252 = 0.125,

所以 pα 优先采样 a 而非 b 。在低温度采样下,

ptemp(x0 = a) ∝ (0.00 + 0.40)2 = 0.160, ptemp(x0 = b) ∝ (0.25 + 0.25)2 = 0.250,

优先采样 b 而非 a 。若 pα 采样 x0 = a ,则仅存在一条未来路径,其似然为 0.40 。若 ptemp采样 x0 = b ,则存在两条未来路径 ba, bb ,但任一选择的似然均为 0.25 。

换言之,尽管 a 在 p 与 ptemp 两种情况下条件似然均较低,pα 仍对 a 进行加权,并采样出似然最高的二元 token 序列。b 有许多未来路径贡献了在 p 与 ptemp 下更高的似然,但最终导致低似然序列。我们在附录 A.1 中对该现象提供了更严格的形式化描述。

因此,从 pα 采样会鼓励选择那些具有更少但更高似然“未来路径”的 token,而不是具有多个较低似然完成的 token。这种行为对于推理任务极为有价值。例如,选择平均似然较高但会使输出陷入低似然个体未来的“错误”token,就是 关键窗口或 关键 token [Li et al.,2025, Abdin et al., 2024] 的例子,这是一种少数 token 对语言模型输出正确性具有高度影响的现象。事实上,急剧的关键窗口已被证明与推理失败存在强烈相关性 [Li et al., 2025]。相反,在从幂分布中采样时,隐含地偏向于为未来的高似然 token 进行规划。

梅特波利斯-哈斯廷斯算法

现在我们已经了解了从 pα 采样在理论上如何有助于提升潜在 LLM 的推理能力,接下来我们的目标是提出一种算法,以准确地从中进行采样。给定一个 LLM p ,我们可以获取任意

序列长度下的值 pα ;然而,这些值是 未规范化的。直接从真实概率中采样需要对所有序列(x0, . . . , xT ) ∈ X T 进行归一化,这在计算上是不可行的。

为解决此问题,我们采用一种称为梅特罗波利斯-黑斯特林斯(Metropolis-Hastings, MH)[Metropolis et al., 1953] 的马尔可夫链蒙特卡罗(MCMC)算法,该算法恰好针对我们所需的目标:从一个未规范化的概率分布中进行近似采样。MH 算法利用任意的 提议分布 q(x|xi)构造样本序列的马尔可夫链 (x0, x1, . . . , xn),以选择下一个候选样本 xi+1。其接受概率为

候选 x 被接受为 xi+1;否则,MH 将 xi+1 = xi。该算法特别方便,因为它仅需要由 pα 给出的相对权重(因为 A 中的规范化权重会相互抵消),并且可以与任意通用但易处理的采样器 q 配合使用,限制极少。值得注意的是,当 n 足够大时,在提议分布 [Neal, 1993] 满足以下(非常轻微的)条件下,此过程将收敛至从 目标分布 pα 进行采样的结果。

Definition 1. 提议分布 q 是 不可约的,如果对于目标分布 pα 下具有非零质量的任意集合X ,q 有非零概率最终从 X 中采样。提议分布是 非周期的,如果生成的样本链不会在固定步数后返回到同一个样本。

因此,我们只需确保我们的提议分布满足不可约性和非周期性,而 Metropolis-Hastings 会处理剩下的部分。在实际层面上,我们还希望 q(x|xi) 及其逆 q(xi|x) 都能容易计算。

考虑以下一族随机重采样提议分布(见图3)。令 pprop 为一个提议大语言模型。以均匀概 率 1/T ,随机选择一个 t ∈ [1, T ],并使用 pprop 从索引 t 开始重采样序列。然后,转移似然q(x|xi) 即为重采样的似然。注意,在每个候选选择步骤中,我们都有非零概率在任意两个序列 x, x′ ∈ X 之间转移,因为以一定概率我们可以始终从 x 的开头开始重采样。这确保了我们的提议分布是不可约的且非周期的。此外,q(xi|x) 可通过对称性轻松计算,因为我们可将xi 视为 x 的重采样版本。

得益于 Metropolis-Hastings 的灵活性,我们可以选择任意语言模型作为提议语言模型 pprop,且可采用任意采样策略(例如,低温度采样)。

基于自回归 MCMC 的功率采样

对大模型直接实现马尔可夫链蒙特卡洛方法将涉及以长度为 T 的采样 token 序列进行初始化,随后在多次迭代中通过 (9) 生成长度为 T 的新候选序列。然而,这一过程计算成本高昂,原因是需要反复调用大模型进行完整的序列推理。

事实上,MCMC 算法在实际应用中的主要缺点是可能存在指数级混合时间 [Gheissari et al.,2017],其中初始化或提议分布的不良选择可能导致在收敛到目标分布之前需要大量样本。如果样本空间具有高维度 [Bandeira et al., 2022, Schmidler and Woodard, 2013],这一问题会更加严重,这正是 token 序列空间 XT 所表现出的特点,尤其是对于长序列或较大的 T 值。

为解决这一问题,我们提出一种算法,利用自回归采样中的顺序结构。我们定义了一系列中间分布,逐步从中进行采样,直至收敛到目标分布 pα 。具体而言,从一个中间分布中获取的样本将启动下一个分布的梅特罗波利斯-黑斯廷斯过程,从而有助于避免病态的初始化。

固定块大小 B 和提议大语言模型 pprop ,并考虑一系列(未归一化)分布

其中 p(x0, . . . , xkB ) 表示长度为 kB 的 token 序列的联合分布,对于任意 k 。为了方便起见,令 πk 表示给出的分布

假设我们有一个来自 πk 的样本。为了获得一个来自 πk+1 的样本,我们通过使用 pprop 采样下一个 B 个 xkB+1:(k+1)B token xkB+1:(k+1)B 来初始化一个 Metropolis-Hastings 过程。随后,我们运行 NMCMC 步的 MCMC 采样过程,采用上一节中的 随机重采样提议分布 q。详细信息见算法 1。

注意,算法 1 是 单次的:尽管进行了多次推理调用,但接受或拒绝新 token 的决策完全基于基础模型的似然,以模拟从 pα 单个序列中进行采样。我们可以将其理解为一种新的 推理时缩放轴,因为在采样过程中投入了额外的计算资源,以获得更高品质/似然的样本。

为了量化缩放效果,我们可以估计算法 1 生成的平均 token 数量。注意,在从 πk(x0:kB 采样时,每次候选生成步骤平均重采样 kB/2 个 token,共进行 NMCMC 次。对所有 k 求和,预期生成的 token 数量为

这里的关键权衡在于块大小B和MCMC步数NMCMC之间。较大的B需要在中间分布之间进行更大的“跳跃”,这就需要更大的NMCMC才能充分过渡。在第5节中,我们通过经验发现了一个B值,使得算法1在相对较小的NMCMC值下表现良好。

实验

实验设置

评估。我们使用一套标准的推理基准,涵盖数学、编程和 STEM(MATH500、HumanEval、GPQA),以及一个不可验证的基准(AlpacaEval 2.0),用于评估通用帮助性。我们对所有方法和基准进行单次执行评估;即,在一个最终响应字符串上进行评估。

• 数学 500:MATH 数据集 [Lightman et al., 2024] 包含涵盖几何、数论和微积分等七个类别的竞赛数学问题。总计有 12500 道题目,其中 7500 道用于训练,5000 道用于测试。MATH500 是由 OpenAI 标准化的一个从测试集中随机选取的特定子集。

• HumanEval:HumanEval 包含 164 个手工编写的编程问题,涵盖算法、推理、数学和语言理解 [Chen et al., 2021]。每个问题平均有 7.7 个相关的单元测试,解决该问题意味着通过所有单元测试。

• GPQA(通用问题回答): GPQA [Rein et al., 2024] 是一个多项选择题科学数据集(涵盖物理、化学和生物),解答这些问题需要高级推理能力。我们使用其中的子集 GPQADiamond 进行评估,该子集包含 198 道题目,代表了 GPQA 数据集中质量最高的部分。

• AlpacaEval 2.0:AlpacaEval 数据集包含 805 个提示 [Dubois et al., 2024],用于评估模型在电影评论、推荐和阅读邮件等任务中的通用帮助性。模型的回复由一个自动化的LLM 判官(GPT-4-turbo)进行评分,该判官会判断模型回复相较于基准模型(同样是GPT-4-turbo)的偏好程度。最终得分是模型回复的胜率,并对模型回复的长度进行了规范化处理。

模型为了展示我们采样算法的有效性,我们采用基础模型 Qwen2.5-Math-7B、Qwen2.5-7B以及 Phi-3.5-mini-instruct。对于我们的强化学习基准方法,我们使用 Shao et al. [2025] 中的 GRPO 实现,在 MATH 训练集上对这些模型进行后训练。对于 Qwen2.5 模型,我们使用 Shao et al. [2025] 中用于基准测试其性能时的默认超参数。对于 Phi-3.5 模型,我们采用Abdin et al. [2024] 中选择的一组超参数,该设置可避免训练不稳定,并在大量轮次中收敛至优于基础模型的表现。

采样算法对于我们的幂采样实现(算法 1),我们将最大 T 设置为 Tmax = 3072 (在出现结束符时可能提前终止),块大小为 B = 3072/16 = 192 。经验上,我们发现 α = 4.0 配合以基础模型作为提议语言模型 pprop 且采样温度 1/α 时,在推理任务中表现最佳。对于AlpacaEval 2.0,我们发现提高提议分布的温度(τ = 0.5 )能提升性能。

结果

主要结果。我们在表 1 中展示了主要结果。在不同家族的基础模型上,我们的采样算法在单次采样准确率和得分方面均实现了显著且近乎普遍的提升,在不同的推理与评估任务中表现突出,例如在 HumanEval 任务上使用 Phi-3.5-mini 时提升高达 +51.9%,在 MATH500 任务上使用 Qwen2.5-Math 时提升达 +25.2%。特别地,在针对强化学习后训练(RL-posttraining)领域内的 MATH500 任务上,幂采样(power sampling)所达到的准确率与 GRPO 方法相当。此外,在领域外推理任务中,我们的算法在 GPQA 上与 GRPO 表现相当,甚至在 HumanEval任务上最高实现 +59.8% 的超越。同样地,在不可验证的 AlpacaEval 2.0 任务上,幂采样也持续优于基线方法,表明我们的提升具有良好的泛化能力,不仅适用于可验证领域,也适用于更广泛的领域。

这种根本上简单但无需训练的采样算法取得的意外成功,凸显了现有基础模型潜在的推理能力。

分析

我们分析了功率采样推理特性与 GRPO 之间的关系。表2中给出了一个示例,更多示例见附录A.3。

推理迹的似然与置信度。按照设计,幂采样旨在从基础模型中采样更高似然的序列。在图 4中,左侧图表绘制了在 MATH500 上基础模型、幂采样和 GRPO 响应的输出序列对数似然(按长度平均)的直方图,其中似然值是相对于 Qwen2.5-Math-7B 基础模型计算的。我们的方法如预期般从基础模型的高似然区域进行采样,但仍保持明显的分布范围。相比之下,GRPO 采样的结果高度集中在最高似然峰处。

我们还绘制了基础模型 confidence,即 MATH500 响应的平均负熵 (不确定性),定义为下一个 token 分布的平均负熵 [Prabhudesai et al., 2025]:

$$\mathrm{Conf}(x_{0:T})=\frac{1}{T+1}\sum_{t=0}^{T}\sum_{x\in\mathcal{X}}p(x|x_{<t})\log p(x|x_{<t}).="" $$="" 图 4 的右图表明,我们方法的响应与 GRPO 的响应均来自基础模型中相似的高置信度区域,这些区域再次对应于更高似然和正确推理的区域。

推理迹长度。 RL 后训练的另一个显著特征是长文本推理 [Guo et al., 2025],其中样本往往表现出更长的响应。在 MATH500 数据集上,Qwen2.5-Math-7B 的平均响应长度为 600 个token,而 GRPO 的平均长度为 671 个 token。令人惊讶的是,功率采样(power sampling)也达到了类似的平均长度 679 个 token,且并未显式鼓励生成更长的内容。这一现象自然地从采样过程中产生。

多样性 and pass@k 性能. 再次注意,图 4 中 GRPO 的似然/置信度呈现尖锐且高度集中的特征,而功率采样则表现出更广的分布。这表明 GRPO 在多样性方面出现了坍缩,而我们的采样器则没有,这与强化学习后训练显著增强基础模型分布的集中性、从而牺牲多样性的观察结果一致 [Song et al., 2025]。为了量化功率采样相对于 GRPO 的多样性差异,我们可以绘制通过率 @k,其中只要 k 个样本中至少有一个准确,即视为问题被解决。图 5 正是展示了这一点:与 GRPO 在 k 较大时通过率 @k 性能逐渐下降不同,功率采样在 k > 1 情 况下表现显著更优。此外,我们的性能曲线在初期超越了基础模型,并最终趋于收敛。特别是,我们能够在不损害多样本性能的前提下,实现与 GRPO 相当的单次采样性能(详见附录 A.2 中其他领域的情况),从而解决了强化学习后训练长期存在的一个缺陷。

功率分布的影响。进行幂采样时,两个最重要的超参数是 α 的选择以及序列生成过程中MCMC(重采样)步骤的数量 NMCMC 。在极端情况下,选择 α = 1.0 直接从基础模型中进行采样,而取 α → ∞ 则相当于确定性地接受任何使似然严格增加的重采样序列。当然,

尽管较高的基础模型似然与更好的推理能力相关(图 4),但直接优化似然并不一定对推理是最优的,这表明 α 存在一个理想的中间值。

在图 6 中,我们展示了 MATH500 在不同 α 值下的准确率,发现一个适中的 α = 4.0 优于其他取值,这与预期一致。值得注意的是,当超过 α ≥ 2.0 后,幂采样(power sampling)的准确率保持相对稳定,表明在实际应用中,幂采样对 α 的选择具有较强的鲁棒性。

测试时缩放结合 MCMC 步骤。另一方面,NMCMC 切换我们的算法在推理时间消耗的计算量,为测试时间缩放提供了一个自然的轴。在第 4.3 节中,我们提出了一个 混合时间的概念,即在充分从目标分布采样之前所需的 MCMC 步数。在我们的场景中,我们预期所采取的 MCMC 步数越少,算法的采样结果与目标 pα 的偏离就越大。

我们在图 6 中绘制了性能对 NMCMC 的依赖关系,观察到准确率在达到 NMCMC = 10 之前持续上升,此后准确率大致保持稳定(未绘制)。使用较少的 MCMC 步数所带来的准确率差异明显,但在 NMCMC = 2 与 NMCMC = 10 之间相差不超过 3 -4% 。然而,从不使用步骤到至少使用两个步骤,准确率的提升显著(3 -4 %)。

我们甚至可以计算出我们的方法相对于运行 GRPO 所生成的 token 总量。根据 (12),我们的采样器生成长度为 T 的序列时,所生成的 token 数量是标准推理的 1/4B · NMCMCT 倍。代入我们的实验参数 NMCMC = 10、T = 679(MATH500 的平均输出长度)和 B = 192,使用 power sampling 进行推理所带来的 token 数量倍数为 8.84×。由于 GRPO 在训练过程中每个样本会生成多个 rollout,因此在假设每个样本有 8 次 rollout 且数据集大小相同的情况下,我们的方法的推理成本大致相当于一次 GRPO 训练轮次的成本。不过通常情下,一次 GRPO 轮次仍然更昂贵,因为它使用了 16 次 rollout,且训练集规模大于 MATH500。

结论

在本工作中,我们提出了一种算法,该算法直接从基础模型中进行采样,无需任何额外训练或外部信号访问,实现了与最先进强化学习后训练算法相当甚至更优的一次性推理性能。我们通过讨论强化学习分布锐化来说明将幂分布定义为推理的有价值目标分布。尽管确切的幂分布采样难以处理,但我们结合经典的马尔可夫链蒙特卡洛(MCMC)技术与自回归生成的序列结构,提出了我们的幂采样算法,该算法表现出强大的实证性能。我们的结果表明,基础模型的能力在采样时未被充分使用,并指向基础模型高似然区域与强大推理能力之间存在密切关系。在采样时增加计算资源,并对基础模型能力有更深入的理解,为将推理范围扩展到可验证性之外提供了有前景的方向。

原文、这里 👉👉 【推理生成】最新整理:无需RL也能强推理!哈佛新采样方法靠 “幂分布 + MCMC”,基础模型推理竟追平 GRPO 无需RL也能强推理!哈佛新采样方法靠 “幂分布 + MCMC”,基础模型推理竟追平 GRPO

往期推荐 

强烈推荐!多模态融合顶会新成果!CVPR/AAAI 高分成果,这波思路必须学!

OCR “去幻觉” 新纪元!通义点金 OCR-R1 搞定模糊盖章+跨页表格,攻克 OCR 三大痛点!

NeurIPS'2025高分入选!扩散模型+Transformer,效率与质量双线飙升!

杀疯了!2025 最新Agent Memory顶会论文,拿捏发文密码!

ICCV 2025|FrDiff:频域魔法+扩散模型暴力去雾,无监督性能刷爆榜单!

NeurIPS 2025 | 港科大&上交大HoloV:多模态大模型“瘦身”新突破,剪枝88.9%视觉Token,性能几乎无损

太牛了!北大:Unified-GRPO让理解生成正反馈,超 GPT-4o-Image

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值