近端策略优化(PPO)算法及其实践应用
1. 自然策略梯度(NPG)与信赖域策略优化(TRPO)
在强化学习中,预期优势等于旧策略采样轨迹的优势,通过重要性采样进行调整,以得出使用新策略时的结果。NPG 算法的损失函数如公式 6 - 9 所示:
maximize
θ
LTRPO θ = �πθ
πθ a ∣s
πθold a ∣s Aw s, a
subject
to �πθ KL πθold · ∣s ∥πθ · ∣s
≤δ
该公式与公式 6 - 8 类似,但增加了一个约束条件,此约束基于新旧策略的 KL 散度,可防止散度大于 δ。然而,不能使用随机梯度下降来优化有约束的非线性损失函数,而需使用共轭梯度下降,它与标准梯度下降类似,但可包含约束条件。
TRPO 在优化过程中添加了额外的线性投影等操作,以确保步骤确实能改善目标。但该算法实现时涉及复杂的共轭梯度计算,导致理解困难且计算复杂。同时,它无法使用多头结构的神经网络,在需要对复杂状态值空间进行良好估计的问题(如 Atari 游戏)中表现不佳,这些问题使得 TRPO 不太受欢迎。
2. 近端策略优化(PPO)的提出
NPG 和 TRPO 的主要问题之一是使用共轭梯度下降,其目标是防止策略发生大的变化,即防止动作概率分布有大的改变。NPG 和 TRPO 通过在优化中设置约束来实现这一目标,另一种方法是对大的步长进行惩罚。
公式 6 - 10 展示了对策略大变化的惩罚:
max
超级会员免费看
订阅专栏 解锁全文
1341

被折叠的 条评论
为什么被折叠?



