理解 RL学习的本质！

最新推荐文章于 2025-12-17 20:09:02 发布

转载最新推荐文章于 2025-12-17 20:09:02 发布 · 7 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247688048&idx=3&sn=2fb7539bcd9c832860be954b1d2ecbef&chksm=cf8e360e29fab4b37a6d2e74e2c99d922bc2285eb756f6a643c89bcdfed145a65d4661adeb0f&scene=126&sessionid=0

文章标签：

#学习

作者 | wangleineo 来源 | 青稞AI

原文链接：https://zhuanlan.zhihu.com/p/1972781108128155202

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

本文只做学术分享，如有侵权，联系删文

最近看了几篇关于RL学习的论文，发现这几篇研究存在着一些内在联系，综合起来看，也许有助于我们理解RL学习方法的本质。

破除迷信
Does RLVR enable LLMs to self-improve？

第一篇文章是最近备受关注的一篇论文，来自清华的LEAP实验室，在今年的NeurIPS拿下了全满分，获得最佳论文奖：

https://arxiv.org/abs/2504.13837

这篇论文开宗明义提出了一个问题：RL学习真的能让LLM获得超越基础模型的推理能力吗？

研究结论很确切，不能。论文用实验证明，RLVR后模型的能力完全在基础模型的能力范围内，只是搜索效率提高了，能更高效地找到问题的解。而基础模型不能解决的问题，RLVR的模型一样不能解决。

证明的方式就是用pass@K（生成 K次结果，只要有一次通过就算通过）的评估方式来比较RL模型和基模的表现。论文发现，在 @1的时候，RL模型的表现都会好于基模，但是随着K的增大，和基模的表现越来越接近，直到在K较大时RL被基模超越。

而且这个结论对于各种RL方法（PPO/GRPO等），在各种评估测试集（数学、代码、视觉推理），各种模型大小上面都适用。

Base VS RL on pass@k

之所以用pass@K的评估方式，是因为这个研究并不是为了测量模型的实际性能，而是为了衡量模型内在能力的边界（boundary）。事实证明，RLVR并没有真正拓展这个边界，而只是在边界内高效寻找到了解决问题的路径而已。RL同时收窄了推理路径的范围（coverage），所以在K较大时，反而没有基础模型的表现更好。

更进一步分析模型的精确度分布，我们发现RL的模型呈现两极分化的特征：在高精确度上特别集中，而在低精确度上的表现不如基模，精确度为零的概率反而较高。

RL训练后的模型就像是一个严重偏科的学生，会做的题目都能打满分，但是对于不会做的题目，猜对的概率还不如普通的学生。

对于两种模型表现的比对可以进一步证明上面的结论：有很多题目RL没有解决，但是基模能解决；但是反过来，基模不能解决，RL能解决的题目几乎不存在（下表中第三行，百分比接近于零）。

与RL学习不同，Distillation学习（SFT）方式可以拓展模型的能力，让模型学会解决原来不能解决的问题：

RL学习这种限制的主要原因被认为是在语言广阔的探索空间中，预训练先验（prior）存在“双刃剑”效应。虽然先验使强化学习训练变得可行，但它也限制了探索，因为任何偏离都可能导致低奖励输出。因此，强化学习算法会强化先验内的解决方案，而不是发现其外的创新路径。

这篇文章只是验证了一个假设，并没有否定RL学习方法本身的价值。基础模型和RL模型的对比，就像是通才（generalist）和专才（specialist）的对比，在解决具体领域问题的时候，往往还是专才能堪大用，我们也会容忍专才的偏执和狭窄的视野。

当然，文章最后也提出，也许我们能找到一种训练方法，平衡模型的exploration和exploitation，让模型在提高效果的同时，不收窄探索的范围。

更新：经评论区小伙伴提醒，有其他论文提出了貌似完全相反的结论：

https://arxiv.org/pdf/2509.25123

看来这个课题还远远没有定论。用一个capability来概括LLM能学习的能力也许过于泛化，可能我们需要一个细化的capability taxonomy，做更加科学的Ablation研究和分类实验。

探究原因 - The Path Not Taken

为什么RL训练会有这样的效果呢？另一篇来自Meta的论文也许给出了解释：

https://arxiv.org/abs/2511.08567z z

研究者认为，RL训练有一个特征，参数更新高度局部化。文章把它称为model-conditioned optimization bias:

For a fixed pretrained model, updates consistently localize to model-preferred parameter regions, remain highly consistent across runs, and are largely invariant to datasets and RL recipes.

文章用两个很形象的图来表示了这个特征：SFT训练的过程就像是越野，走的路径百无禁忌，可以爬山下谷；而RL训练的过程像是带着一个指南针，按照这个指南针的指引，在相对平坦的地面上谨小慎微地前行。

这个指南针，或者说这个optimization bias是从哪里来的呢？作者提出了一个“三重门”的理论：

Gate I: On-Policy RL Imposes a One-Step KL Leash

RL学习会限制每一步更新的KL分布，让它接近模型的原有分布。就像给探索戴了一个狗链（leash），每一步都不会走太远，向着更高奖励的方向小步前进。

Gate II: Model Geometry Determines Where a KL-Bounded Step Goes

一个经过预训练的模型，它的参数空间会有一些结构化的几何特征，会有一些高曲度的方向。可以直观地把它理解为探索空间的主山脉、深峡谷的走向。

而RL训练的更新，会尽量避开这些高曲度方向的更新，采用尽量沿principal angle的方向更新。从参数矩阵的角度说，矩阵的主向量和特征值都会大体保持原样。

Gate III: Precision Acts as a Lens Revealing the Compass

这重门的意思是，在偏离主向量的方向上并不是没有更新，但是更新的幅度很小。这就导致低精度的参数表示，比如bfloat16，就会起到一个过滤器的作用，把这些幅度很小的更新直接归零。

作者也在这里澄清了一个广为流传的误解：RL产生的更新非常稀疏（sparse）。实际上RL更新的参数并不少，只是一些小更新被参数的表示精度抹平了：

RLVR exhibits a persistent, model-conditioned optimization bias in where updates land—highly consistent across runs and largely invariant to datasets and RL recipes. The observed sparsity is a superficial readout of this bias, amplified by bf16 precision.

关于这三重门的数学解释，请参见论文，这里不展开了。

通过观察训练后参数空间的变化，作者得出了以下结论：

• RLVR Preserves Spectral Geometry, While SFT Distorts It
• RLVR Avoids Principal Weights, While SFT Targets Them
• RLVR Relies on Model Geometry, Disrupting Geometry Destroys the Bias
• RLVR signatures persist in agentic tasks and RLHF

作者认为，现有的一些RL训练方法，比如PiSSA，没有考虑到RL存在这种参数更新的特征，所以效果不好。我们应该可以设计一些适用于RL的参数更新方法，比如冻结主要权重，而更新“非主要、低幅度的权重。”我们可能需要研究一些"RL-native, geometry-aware" 的算法，来适配RL学习的这种特征。

这项研究使我们从‘黑箱’视角转向对RL如何学习的‘白箱’理解。RL这种“循规蹈矩”的特点，就大体上解释了第一篇论文中“RL为什么没有真正提高模型能力”的问题。

灾难性遗忘 - 没有免费的午餐？

读到这你可能会问，既然RL不能真正提高模型的能力，而SFT可以，那我们为什么不用SFT方式来做所有的训练呢？这就不得不提到灾难性遗忘的问题。

RL's razor这篇论文指出，SFT训练会导致严重的灾难性遗忘，而RL训练却不会。

https://arxiv.org/abs/2509.04259

关于这一篇论文，我在另一篇文章中已经有解读，在此不再赘述：持续学习和灾难性遗忘^[1]

把这几篇论文的研究结论联系起来看，我脑中想到了一个问题：学习新技能和避免灾难性遗忘会不会是鱼与熊掌，不可兼得？我们看这个表格：

也许学习新能力和避免遗忘之间，存在表中所展现的互斥性。如果是这样，只能说天下没有免费的午餐，只能在两者之间做权衡（tradeoff），看具体场景选择训练方案了。

但也许原理上并不存在这样的互斥性，也许我们可以二者兼得。最近Thinking Machines的一篇文章就是这个方向的一个探索。

他们的方法叫做On-policy Distillation，可理解为RL方法和SFT的一种“杂交”，原理上是一种RL训练，但过程又类似于SFT的蒸馏训练：Thinking Machines新文章：On-Policy Distillation^[2]

真希望第一篇论文的研究者能用他们的实验方法来测试一下TML的On-policy Distillation，看看结果如何。如果OPD方法能：

• 通过蒸馏扩展模型的能力边界
• 高效寻找推理路径
• 避免灾难性遗忘

那恐怕我们就找到了LLM模型训练的一个灵丹妙药，能治百病，又没有副作用。说不定，就此开启了模型进化的新纪元呢。

引用链接

[1] 持续学习和灾难性遗忘: https://zhuanlan.zhihu.com/p/1969174968651736270
[2] Thinking Machines新文章：On-Policy Distillation: https://www.zhihu.com/pin/1968462515513062544

自动驾驶之心

端到端与VLA自动驾驶小班课！