PPO系列1 - 强化学习、策略梯度的原理

原创已于 2024-12-13 09:47:28 修改 · 224 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2024-12-13 08:12:37 首次发布

LLM理论专栏收录该内容

12 篇文章

订阅专栏

强化学习基本概念

、

Agent根据上一步Environment给出的State和Reward，以及自己的内在策略，做出Action；

Action给到Environment，Environment给出State和Reward，给到Agent去做下一步Action；

该游戏中，State就是游戏画面，Reward就是吃的分、通关等奖励（或者被打死等惩罚），Action就是超级玛丽下一步的<上、下、左、右、静止>动作。Agent是超级玛丽。Environment是游戏机。

目标：学习到一个最优的策略，通过该策略下走的Action序列，拿到尽可能多的Reward总和。

每一步的Action，要做长远考虑，不能只看这一步的Reward，而要尽量使今后的长远Reward之和，也就是Return，最大化。

数学期望(概率加权平均)：

强化学习的目标：（2种说法）

数学表达式：

$\theta$ ：学习到的策略（模型）

$\tau$ ：在该策略下采样得到的轨迹Trajectory

$R(\tau )$ : 该轨迹的Return（Reward之和）

$P_{\theta }(\tau )$ : 在该策略下采样得到该轨迹的概率

策略梯度的推导：

要最大化E，就要求出 $\theta$ 的梯度，沿着梯度方向对 $\theta$ 进行更新，可使E最大化。

去掉梯度求导，得到：

即对上式进行最大化。

直观含义：

当R(即Return)>0时，让每个状态s下生成这个action a的概率尽量增大。

当R(即Return)<0时，让每个状态s下生成这个action a的概率尽量减小。

超级玛丽的例子：

定义loss函数：（就是把最大化上式改成最小化下式）

游戏画面是s，作为神经网络的输入；超级玛丽的动作是a，作为神经网络的分类输出；

使用上面的神经网络，玩N次游戏，即采样得到N条轨迹，每条轨迹对应一个Return R:

对每条轨迹，有了R，就可以计算每一步的梯度了；所有轨迹的所有步的梯度，累加起来，更新模型：

On Policy：采集数据的模型，和训练的策略模型，是同一个模型。

博客等级

码龄13年

261
原创

501
点赞

850
收藏

330
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: NEFTune，SFT训练阶段给Embedding加噪音

下一篇：: PPO系列2 - GAE优势函数

最新评论

NCCL的Double Binary Tree实现原理
nuttee: 有个问题，在计算单二叉树耗时的时候，非叶子节点需要接收其子节点的数据，虽然数据量是2S，但我理解从两个子节点接收数据是可以并行的吧，那耗时依然是 S/B而非你说的2S/B？
NCCL的Double Binary Tree实现原理
yangyangv5: 博主请教一些问题，ring allreduce在设备数量足够大的时候可以近似看所 2S/B+SC,这部分性能与设备无关了，和tree相比tree在性能上的优势是什么呢？RingAllReduce，每次每个节点等量的发送和接收，所以接收到的加和完后，没有带宽再同时发送了这段话不是很理解
Tensorflow论文解读
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
Mesos+Docker+Tensorflow集群解决方案
优快云-Ada助手: 有人说无监督学习才是AI的未来，否则会有多少人工就有多少智能，元芳你怎么看呢？
B树和Clustered/Non-Clustered index
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)提升标题与正文的相关性；(3)增加除了各种控件外，文章正文的字数。

大家在看

SQL Server数据库同步方案，结合bcp ,sqlcmd工具实现【亲测，绝对无坑，拿来即用】 2

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。