为何PRM 和 MCTS在大语言模型中的推理效果不如蒸馏?

DeepSeek-R1论文中提到,基于过程奖励模型(PRM)和蒙特卡洛树搜索(MCTS)并不适合 LLM 的推理。

PRM 的挑战:

  • 难以定义通用的、细粒度的推理步骤;
  • 难以准确判断中间步骤的正确性,且自动标注方法效果不佳,人工标注又难以扩展;
  • 模型化的 PRM 容易导致奖励黑客(Agent 利用奖励函数或环境中的漏洞来获取高奖励,而并未真正学习到预期行为。)行为,并且会增加额外的训练成本。

MCTS 的挑战:

  • LLM 的 token 生成搜索空间巨大,远远超出棋类游戏,容易陷入局部最优解;
  • 价值模型的训练非常困难,导致难以迭代提升。
     

此外,到底应该选择蒸馏还是强化学习?

  • 第一,将更强大的模型蒸馏到较小模型中能产生优异的结果,而依赖大规模强化学习的小模型则需消耗巨大的计算资源,且可能仍无法达到蒸馏所能达到的性能水平。
  • 第二,尽管蒸馏策略既经济又高效,但若要突破智能的界限,可能仍需依赖更强大的基础模型以及大规模强化学习。

为什么在蒸馏到小模型时,直接用RL在小模型上训练不如先做大模型再蒸馏?

  • 大模型在RL阶段可能出现许多高阶推理模式。而小模型因为容量和表示能力有限,很难在无监督或纯RL情况下学到相似水平的精细推理模式。
  • 蒸馏可将「大模型的推理轨迹」直接转移给小模型,小模型只需要模仿大模型相对完备的推理流程,可以在较小训练/推理开销下取得远胜于自身独立强化学习的效果。对于这一点,其算的上是给小模型提供了推理稠度极高的高质量SFT数据,使得小模型能够很好地学到大模型推理有关的高级模式。

参考来源:
1. https://zhuanlan.zhihu.com/p/19868935152

2. https://zhuanlan.zhihu.com/p/19551355661

3. https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

XuecWu3

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值