由浅入深学习大语言模型RLHF(PPO强化学习- v1浅浅的)

hithithithithit

于 2025-02-19 00:17:19 发布

阅读量1.1k

点赞数 19

文章标签： RLHF PPO 大语言模型强化学习由浅入深

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_38901850/article/details/145715563

版权

最近，随着DeepSeek的爆火，GRPO也走进了视野中。为了更好的学习GRPO，需要对PPO的强化学习有一个深入的理解，那么写一篇文章加深理解吧。纵观网上的文章，要么说PPO原理，各种复杂的公式看了就晕，要么说各种方式命名的模型，再要么默认你是个NLPer。这导致RLer和NLPer之间学习大语言模型强化学习产生了巨大的gap。于是，我们单纯说说大语言模型里面的PPO吧。

其实PPO也是在训练模型，和SFT一样，都是为了获得最终一个用于推理部署的模型。SFT训练模型时一般需要一个base【模型】和【损失函数】，这里先这么浅显地说，因为PPO也需要这些，我们通过这些相同的部分来弥补NLP和RL之间的gap吧。

一、模型

SFT（Only one model）

SFT模型一般是一个已经预训练过的大语言模型（例如GPTs、BERT等），或者是一个未经训练的小模型（LSTM）。

PPO（Four Models）

PPO训练时总共有四个模型分别是Policy Model(Actor)、Reward Model、Reference Model、Critic Model。这里和SFT模型相似的也就是Policy Model，这个模型也是经过预训练的模型且用于未来实际使用的模型。其他三个模型都是用来辅助Policy Model模型训练的。那么其他三个模型的作用是什么呢？Let's talk step by step.

Reward Model

最低0.47元/天解锁文章

hithithithithit

博客等级

码龄8年

97
原创

127
点赞

335
收藏

597
粉丝

关注

私信

热门文章

分类专栏

ASR 1篇
C++日记 7篇
RealDeepLearning
设计模式 3篇
深度学习 3篇
pytorch编程基础 13篇
python 9篇
Python 语法 2篇
开发 2篇
Flask Web开发 3篇
docker 7篇
git 1篇
node.js 2篇
Django开发 8篇
mysql 4篇
开发工具 2篇
论文 9篇
RE 11篇
Prompt 5篇
NER 1篇
nlp knowledge 7篇
算法 1篇
centos 9篇
数据结构与算法 2篇

展开全部收起

最新评论

C++学习日记 day002
qq_65364446: 不行啊，大型项目的代码，根本下不了手。而且他根本没有build完，输出不了啊
C++学习日记 day002
听风Q: 学学动态调试，print大法
C++学习日记 day002
qq_65364446: 你好。我是在clion用时，在build 失败了，显示build failed。但是实际上，build的窗口中没有error，只有warning等显示信息，然后就是最后一行显示“ninja: build stopped: subcommand failed.” 不像你还有其他的显示，只有“ninja: build stopped: subcommand failed.” 请问这种应该怎么解决啊？连报错都没有。
Error日志 ERROR: Failed building wheel for jsonnet
m0_62838877: 请问博主 jsonnet这个模块不能再说Windows下安装吗？安装它一直出错
Error日志 ERROR: Failed building wheel for jsonnet
weixin_44735777: 很强，解决了

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

hithithithithit 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。