20、近端策略优化（PPO）算法及其实践应用

最新推荐文章于 2025-10-23 13:55:20 发布

prometheus9mon

最新推荐文章于 2025-10-23 13:55:20 发布

阅读量44

点赞数

CC 4.0 BY-SA版权

分类专栏：强化学习重塑工业智能文章标签： PPO算法强化学习策略优化

本文链接：https://blog.youkuaiyun.com/prometheus9mon/article/details/151054225

42 篇文章 ¥499.90

订阅专栏¥69.90

在强化学习中，预期优势等于旧策略采样轨迹的优势，通过重要性采样进行调整，以得出使用新策略时的结果。NPG 算法的损失函数如公式 6 - 9 所示：

maximize
θ
LTRPO θ = �πθ
πθ a ∣s
πθold a ∣s Aw s, a
subject
to �πθ KL πθold · ∣s ∥πθ · ∣s
≤δ

该公式与公式 6 - 8 类似，但增加了一个约束条件，此约束基于新旧策略的 KL 散度，可防止散度大于 δ。然而，不能使用随机梯度下降来优化有约束的非线性损失函数，而需使用共轭梯度下降，它与标准梯度下降类似，但可包含约束条件。

TRPO 在优化过程中添加了额外的线性投影等操作，以确保步骤确实能改善目标。但该算法实现时涉及复杂的共轭梯度计算，导致理解困难且计算复杂。同时，它无法使用多头结构的神经网络，在需要对复杂状态值空间进行良好估计的问题（如 Atari 游戏）中表现不佳，这些问题使得 TRPO 不太受欢迎。

NPG 和 TRPO 的主要问题之一是使用共轭梯度下降，其目标是防止策略发生大的变化，即防止动作概率分布有大的改变。NPG 和 TRPO 通过在优化中设置约束来实现这一目标，另一种方法是对大的步长进行惩罚。

公式 6 - 10 展示了对策略大变化的惩罚：

max