从RL的专业角度解惑 instruct GPT的目标函数

原创

已于 2024-07-08 14:21:29 修改 · 842 阅读

·

15

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#gpt #人工智能

于 2024-07-08 13:18:40 首次发布

作为早期chatGPT背后的核心技术，instruct GPT一直被业界奉为里程碑式的著作。但是这篇论文关于RL的部分确写的非常模糊，几乎一笔带过。当我们去仔细审查它的目标函数的时候，心中不免有诸多困惑。特别是作者提到用PPO来做强化学习，但是那个目标函数却怎么看都和经典的PPO目标函数不大一样。网上关于这一点的解释资料也甚少，而且不免有理解错误的。所以，鉴于GPT技术在今天是如此的重要，我觉得有必要去把里面的一些误解澄清。这样，后人也可以更加透彻的理解这里面的核心思想，以及这篇文章所用的PPO和原始版本PPO之间的关联。

首先，我们来看原论文的目标函数（省略了pretrain约束的版本）：

$J(\theta)=E_{(x,y)\sim D_{\pi_\phi}}[r(x,y)-\beta log(\frac{\pi_\phi(y|x)}{\pi_{SFT}(y|x)})]$

如果没有后面的惩罚项，这就是一个经典的策略梯度优化对象，我们可以直接把梯度算出来：

$J(\phi)=E_{(x,y)\sim D_{\pi_\phi}}[r(x,y)]\approx E_{x\sim D_{\pi_\phi},y\sim \pi_\phi(\cdot|x)}[r(x,y)]=E_{x\sim D_{\pi_\phi}}[\sum_y\pi_\phi(y|x)r(x,y)]$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。