作者:姜富春
原文:https://zhuanlan.zhihu.com/p/14993645091
导语
LLM Post-Training过程中,会出现较多使用Reward Model的场景。那么LLM中Reward Model是什么?其实简单说就是按照人的偏好制定的一种奖励规则。比如在文创场景:
-
• 场景1:创作的内容越丰富,越有层次的结果认为是好结果,奖励分会高,相反奖励分就低。
-
• 场景2:创作的内容越通俗易懂越好,奖励分高,越阳春白雪越差,奖励分越低
所以从上面的场景可以看出,Reward Model是按业务自定义的规则做的偏好打分,有比较强的主观性。
当前Reward Model 有两种主流的范式:
-
• ORM(Outcome Reward Model): 在生成模型中,通常是对生成的结果整体做一个打分。
-
• PRM (Process Reward Model):在生成的过程,分步骤,对每一步进行打分,是更细粒度的奖励模型。在CloseAI推出O1之后,PRM逐渐成为业界研究的新宠 。
由于两种范式有较大的区别,本文只聚焦讲解ORM。(PRM后续会单独整理一文)
我们在了解RM的训练过程之前,先聊聊RM在LLM研发中到底有啥用?
1.LLM场景中RM的作用
在LLM研发范式中,RM的作用真的是大大地!毫不夸张地说,有了一个好的RM模型,你的业务才能起飞,形成真正的迭代的飞轮。
下面列举几个RM的使用场景,看看他的作用。
1.1. RLHF中的关键一环
当年openAI 还真的open的时候,让我们学会了RLHF的新研发范式,其中step2就是训练一个RM,如下图1所示。(paper链接[1]),有了RM后RLHF才能转起来。RLHF是训LLM的大杀器,随着LLM模型能力从一个文科生(GPT-4) -> 理科生(openAI O1)的演进,Reinforce Learning的角色越来越重要,RM又是RL中不可或缺的部分。
图1、OpenAI instructGPT RLHF架构图
1.2. 拒绝采样 + SFT
我们仔细看看真OpenAI(Mata)的Llama3.1的paper(paper地址[3])。post-training阶段的训练流程,如下图2所示。这是一个飞轮迭代的过程,Llama转了6轮。
图2、Llama3 post-training 框图
我们来看看Llama做Post-training的飞轮过程:
1.持续通过人工标注或机造