task 03 策略梯度及 PPO 算法

最新推荐文章于 2025-11-03 23:55:46 发布

原创最新推荐文章于 2025-11-03 23:55:46 发布 · 381 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#强化学习

在 reinforcement learning 中有 3 个components，一个actor，一个environment，一个reward function。

如果要 learn 的 agent 跟和环境互动的 agent 是同一个的话，这个叫做on-policy(同策略)。
如果要 learn 的 agent 跟和环境互动的 agent 不是同一个的话，那这个叫做off-policy(异策略)。

Tips:
第一个 tip 是 add 一个 baseline。如果 given state s 采取 action a 会给你整场游戏正面的 reward，就要增加它的概率。如果 state s 执行 action a，整场游戏得到负的 reward，就要减少这一项的概率。
第二个 tip：给每一个 action 合适的 credit。

REINFORCE: Monte Carlo Policy Gradient
蒙特卡洛可以理解为算法完成一个 episode 之后，再拿这个 episode 的数据来去 learn 一下，做一次更新。因为我们已经拿到了一整个 episode 的数据的话，也能够拿到每一个 step 的 reward，我们可以很方便地去计算每个 step 的未来总收益，就是我们的期望，就是我们的回报。

时序差分强化学习是指在不清楚马尔可夫状态转移概率的情况下，以采样的方式得到不完整的状态序列，估计某状态在该状态序列完整后可能得到的收益，并通过不断地采样持续更新价值。
蒙特卡洛强化学习则需要经历完整的状态序列后，再来更新状态的真实价值。

PPO 算法有两个主要的变种：PPO-Penalty 和 PPO-Clip。