理解大模型训练中的PRM(过程奖励模型)训练

最新推荐文章于 2025-03-30 12:06:27 发布

AIBigModel

最新推荐文章于 2025-03-30 12:06:27 发布

阅读量1.9k

点赞数 9

CC 4.0 BY-SA版权

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/AIBigModel/article/details/145228276

作者：姜富春
原文：https://zhuanlan.zhihu.com/p/14993645091

导语

LLM Post-Training过程中，会出现较多使用Reward Model的场景。那么LLM中Reward Model是什么？其实简单说就是按照人的偏好制定的一种奖励规则。比如在文创场景：

• 场景1：创作的内容越丰富，越有层次的结果认为是好结果，奖励分会高，相反奖励分就低。
• 场景2：创作的内容越通俗易懂越好，奖励分高，越阳春白雪越差，奖励分越低

所以从上面的场景可以看出，Reward Model是按业务自定义的规则做的偏好打分，有比较强的主观性。

当前Reward Model 有两种主流的范式：

• ORM（Outcome Reward Model）: 在生成模型中，通常是对生成的结果整体做一个打分。
• PRM （Process Reward Model）：在生成的过程，分步骤，对每一步进行打分，是更细粒度的奖励模型。在CloseAI推出O1之后，PRM逐渐成为业界研究的新宠。

由于两种范式有较大的区别，本文只聚焦讲解ORM。（PRM后续会单独整理一文）

我们在了解RM的训练过程之前，先聊聊RM在LLM研发中到底有啥用？

1.LLM场景中RM的作用

在LLM研发范式中，RM的作用真的是大大地！毫不夸张地说，有了一个好的RM模型，你的业务才能起飞，形成真正的迭代的飞轮。

下面列举几个RM的使用场景，看看他的作用。

1.1. RLHF中的关键一环

当年openAI 还真的open的时候，让我们学会了RLHF的新研发范式，其中step2就是训练一个RM，如下图1所示。（paper链接[1]），有了RM后RLHF才能转起来。RLHF是训LLM的大杀器，随着LLM模型能力从一个文科生(GPT-4) -> 理科生(openAI O1)的演进，Reinforce Learning的角色越来越重要，RM又是RL中不可或缺的部分。

图1、OpenAI instructGPT RLHF架构图

1.2. 拒绝采样 + SFT

我们仔细看看真OpenAI（Mata）的Llama3.1的paper（paper地址[3]）。post-training阶段的训练流程，如下图2所示。这是一个飞轮迭代的过程，Llama转了6轮。

图2、Llama3 post-training 框图

我们来看看Llama做Post-training的飞轮过程：

1.持续通过人工标注或机造

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。