理解大模型训练中的PRM(过程奖励模型)训练

作者:姜富春
原文:https://zhuanlan.zhihu.com/p/14993645091

导语

LLM Post-Training过程中,会出现较多使用Reward Model的场景。那么LLM中Reward Model是什么?其实简单说就是按照人的偏好制定的一种奖励规则。比如在文创场景:

  • • 场景1:创作的内容越丰富,越有层次的结果认为是好结果,奖励分会高,相反奖励分就低。

  • • 场景2:创作的内容越通俗易懂越好,奖励分高,越阳春白雪越差,奖励分越低

所以从上面的场景可以看出,Reward Model是按业务自定义的规则做的偏好打分,有比较强的主观性。

当前Reward Model 有两种主流的范式:

  • • ORM(Outcome Reward Model): 在生成模型中,通常是对生成的结果整体做一个打分。

  • • PRM (Process Reward Model):在生成的过程,分步骤,对每一步进行打分,是更细粒度的奖励模型。在CloseAI推出O1之后,PRM逐渐成为业界研究的新宠 。

由于两种范式有较大的区别,本文只聚焦讲解ORM。(PRM后续会单独整理一文)

我们在了解RM的训练过程之前,先聊聊RM在LLM研发中到底有啥用?

1.LLM场景中RM的作用

在LLM研发范式中,RM的作用真的是大大地!毫不夸张地说,有了一个好的RM模型,你的业务才能起飞,形成真正的迭代的飞轮。

下面列举几个RM的使用场景,看看他的作用。

1.1. RLHF中的关键一环

当年openAI 还真的open的时候,让我们学会了RLHF的新研发范式,其中step2就是训练一个RM,如下图1所示。(paper链接[1]),有了RM后RLHF才能转起来。RLHF是训LLM的大杀器,随着LLM模型能力从一个文科生(GPT-4) -> 理科生(openAI O1)的演进,Reinforce Learning的角色越来越重要,RM又是RL中不可或缺的部分。

图片

图1、OpenAI instructGPT RLHF架构图

1.2. 拒绝采样 + SFT

我们仔细看看真OpenAI(Mata)的Llama3.1的paper(paper地址[3])。post-training阶段的训练流程,如下图2所示。这是一个飞轮迭代的过程,Llama转了6轮。

图片

图2、Llama3 post-training 框图

我们来看看Llama做Post-training的飞轮过程:

1.持续通过人工标注或机造

### DeepSeek R1 使用手册概述 DeepSeek R1 是一款功能强大且易于使用的大型语言模型,能够处理多种自然语言任务并提供高效的解决方案。为了帮助用户更好地理解和使用该模型,在官方文档中提供了详细的安装指导、配置说明以及常见问题解答。 #### 安装与环境准备 对于希望在个人电脑上运行此模型的用户来说,官方建议遵循以下步骤来完成初步设置: - **硬件需求**: 推荐至少配备有8GB显存以上的GPU设备以获得更流畅体验;如果仅用于推理,则可以考虑CPU版本[^3]。 - **软件依赖**: 需要预先安装Python 3.7及以上版本,并通过pip工具安装必要的库文件,如transformers等。 ```bash pip install transformers torch ``` #### 基本命令操作 针对已经成功部署好环境的情况,可以通过简单的CLI指令快速启动或管理DeepSeek R1实例: - 删除现有模型(例如llama3)以便腾出空间给新的模型: ```bash ollama rm llama3 ``` - 下载并加载指定版本(此处为14B参数量级)的DeepSeek R1模型: ```bash ollama run deepseek-r1:14b ``` 这些基本命令可以帮助用户迅速开始探索DeepSeek R1的功能特性[^1]。 #### 功能应用案例 除了基础的操作外,DeepSeek R1还特别擅长于复杂场景下的表现优化。例如,在不需要复杂的预训练机制(PRM)或是蒙特卡洛树搜索(MCTS)的情况下,仅仅依靠基于规则奖励函数就能实现高效的学习过程,这使得它非常适合那些追求简洁而有效的应用场景开发人员使用[^2]。 此外,当作为本地的知识管理系统时,DeepSeek R1能有效解析各类结构化和非结构化的数据源,构建起直观易懂的知识网络图谱,从而辅助决策制定者获取更加全面的信息支持。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值