理解 RL学习的本质!

作者 | wangleineo 来源 |  青稞AI

 原文链接:https://zhuanlan.zhihu.com/p/1972781108128155202 

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取自动驾驶之心知识星球

本文只做学术分享,如有侵权,联系删文

最近看了几篇关于RL学习的论文,发现这几篇研究存在着一些内在联系,综合起来看,也许有助于我们理解RL学习方法的本质。

破除迷信 
 Does RLVR enable LLMs to self-improve?

第一篇文章是最近备受关注的一篇论文,来自清华的LEAP实验室,在今年的NeurIPS拿下了全满分,获得最佳论文奖:

https://arxiv.org/abs/2504.13837

这篇论文开宗明义提出了一个问题:RL学习真的能让LLM获得超越基础模型的推理能力吗?

研究结论很确切,不能。论文用实验证明,RLVR后模型的能力完全在基础模型的能力范围内,只是搜索效率提高了,能更高效地找到问题的解。而基础模型不能解决的问题,RLVR的模型一样不能解决。

证明的方式就是用pass@K(生成 K次结果,只要有一次通过就算通过)的评估方式来比较RL模型和基模的表现。论文发现,在 @1的时候,RL模型的表现都会好于基模,但是随着K的增大,和基模的表现越来越接近,直到在K较大时RL被基模超越。

而且这个结论对于各种RL方法(PPO/GRPO等),在各种评估测试集(数学、代码、视觉推理),各种模型大小上面都适用。

Base VS RL on pass@k

之所以用pass@K的评估方式,是因为这个研究并不是为了测量模型的实际性能,而是为了衡量模型内在能力的边界(boundary)。事实证明,RLVR并没有真正拓展这个边界,而只是在边界内高效寻找到了解决问题的路径而已。RL同时收窄了推理路径的范围(coverage),所以在K较大时,反而没有基础模型的表现更好。

更进一步分析模型的精确度分布,我们发现RL的模型呈现两极分化的特征:在高精确度上特别集中,而在低精确度上的表现不如基模,精确度为零的概率反而较高。

RL训练后的模型就像是一个严重偏科的学生,会做的题目都能打满分,但是对于不会做的题目,猜对的概率还不如普通的学生。

对于两种模型表现的比对可以进一步证明上面的结论:有很多题目RL没有解决,但是基模能解决;但是反过来,基模不能解决,RL能解决的题目几乎不存在(下表中第三行,百分比接近于零)。

与RL学习不同,Distillation学习(SFT)方式可以拓展模型的能力,让模型学会解决原来不能解决的问题:

RL学习这种限制的主要原因被认为是在语言广阔的探索空间中,预训练先验(prior)存在“双刃剑”效应。虽然先验使强化学习训练变得可行,但它也限制了探索,因为任何偏离都可能导致低奖励输出。因此,强化学习算法会强化先验内的解决方案,而不是发现其外的创新路径。

这篇文章只是验证了一个假设,并没有否定RL学习方法本身的价值。基础模型和RL模型的对比,就像是通才(generalist)和专才(specialist)的对比,在解决具体领域问题的时候,往往还是专才能堪大用,我们也会容忍专才的偏执和狭窄的视野。

当然,文章最后也提出,也许我们能找到一种训练方法,平衡模型的exploration和exploitation,让模型在提高效果的同时,不收窄探索的范围。

更新:经评论区小伙伴提醒,有其他论文提出了貌似完全相反的结论:

https://arxiv.org/pdf/2509.25123

看来这个课题还远远没有定论。用一个capability来概括LLM能学习的能力也许过于泛化,可能我们需要一个细化的capability taxonomy,做更加科学的Ablation研究和分类实验。

探究原因 - The Path Not Taken

为什么RL训练会有这样的效果呢?另一篇来自Meta的论文也许给出了解释:

https://arxiv.org/abs/2511.08567z z

研究者认为,RL训练有一个特征,参数更新高度局部化。文章把它称为model-conditioned optimization bias:

For a fixed pretrained model, updates consistently localize to model-preferred parameter regions, remain highly consistent across runs, and are largely invariant to datasets and RL recipes.

文章用两个很形象的图来表示了这个特征:SFT训练的过程就像是越野,走的路径百无禁忌,可以爬山下谷;而RL训练的过程像是带着一个指南针,按照这个指南针的指引,在相对平坦的地面上谨小慎微地前行。

这个指南针,或者说这个optimization bias是从哪里来的呢?作者提出了一个“三重门”的理论:

Gate I: On-Policy RL Imposes a One-Step KL Leash

RL学习会限制每一步更新的KL分布,让它接近模型的原有分布。就像给探索戴了一个狗链(leash),每一步都不会走太远,向着更高奖励的方向小步前进。

Gate II: Model Geometry Determines Where a KL-Bounded Step Goes

一个经过预训练的模型,它的参数空间会有一些结构化的几何特征,会有一些高曲度的方向。可以直观地把它理解为探索空间的主山脉、深峡谷的走向。

而RL训练的更新,会尽量避开这些高曲度方向的更新,采用尽量沿principal angle的方向更新。从参数矩阵的角度说,矩阵的主向量和特征值都会大体保持原样。

Gate III: Precision Acts as a Lens Revealing the Compass

这重门的意思是,在偏离主向量的方向上并不是没有更新,但是更新的幅度很小。这就导致低精度的参数表示,比如bfloat16,就会起到一个过滤器的作用,把这些幅度很小的更新直接归零。

作者也在这里澄清了一个广为流传的误解:RL产生的更新非常稀疏(sparse)。实际上RL更新的参数并不少,只是一些小更新被参数的表示精度抹平了:

RLVR exhibits a persistent, model-conditioned optimization bias in where updates land—highly consistent across runs and largely invariant to datasets and RL recipes. The observed sparsity is a superficial readout of this bias, amplified by bf16 precision.

关于这三重门的数学解释,请参见论文,这里不展开了。

通过观察训练后参数空间的变化,作者得出了以下结论:

  • • RLVR Preserves Spectral Geometry, While SFT Distorts It

  • • RLVR Avoids Principal Weights, While SFT Targets Them

  • • RLVR Relies on Model Geometry, Disrupting Geometry Destroys the Bias

  • • RLVR signatures persist in agentic tasks and RLHF

作者认为,现有的一些RL训练方法,比如PiSSA,没有考虑到RL存在这种参数更新的特征,所以效果不好。我们应该可以设计一些适用于RL的参数更新方法,比如冻结主要权重,而更新“非主要、低幅度的权重。”我们可能需要研究一些"RL-native, geometry-aware" 的算法,来适配RL学习的这种特征。

这项研究使我们从‘黑箱’视角转向对RL如何学习的‘白箱’理解。RL这种“循规蹈矩”的特点,就大体上解释了第一篇论文中“RL为什么没有真正提高模型能力”的问题。

灾难性遗忘 - 没有免费的午餐?

读到这你可能会问,既然RL不能真正提高模型的能力,而SFT可以,那我们为什么不用SFT方式来做所有的训练呢?这就不得不提到灾难性遗忘的问题。

RL's razor这篇论文指出,SFT训练会导致严重的灾难性遗忘,而RL训练却不会。

https://arxiv.org/abs/2509.04259

关于这一篇论文,我在另一篇文章中已经有解读,在此不再赘述:持续学习和灾难性遗忘[1]

把这几篇论文的研究结论联系起来看,我脑中想到了一个问题:学习新技能和避免灾难性遗忘会不会是鱼与熊掌,不可兼得?我们看这个表格:

也许学习新能力避免遗忘之间,存在表中所展现的互斥性。如果是这样,只能说天下没有免费的午餐,只能在两者之间做权衡(tradeoff),看具体场景选择训练方案了。

但也许原理上并不存在这样的互斥性,也许我们可以二者兼得。最近Thinking Machines的一篇文章就是这个方向的一个探索。

他们的方法叫做On-policy Distillation,可理解为RL方法和SFT的一种“杂交”,原理上是一种RL训练,但过程又类似于SFT的蒸馏训练:Thinking Machines新文章:On-Policy Distillation[2]

真希望第一篇论文的研究者能用他们的实验方法来测试一下TML的On-policy Distillation,看看结果如何。如果OPD方法能:

  • • 通过蒸馏扩展模型的能力边界

  • • 高效寻找推理路径

  • • 避免灾难性遗忘

那恐怕我们就找到了LLM模型训练的一个灵丹妙药,能治百病,又没有副作用。说不定,就此开启了模型进化的新纪元呢。

引用链接

[1] 持续学习和灾难性遗忘: https://zhuanlan.zhihu.com/p/1969174968651736270
[2] Thinking Machines新文章:On-Policy Distillation: https://www.zhihu.com/pin/1968462515513062544

自动驾驶之心

端到端与VLA自动驾驶小班课!

图片

添加助理咨询课程!

图片

知识星球交流社区

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值