PPO算法是一类Policy Gradient强化学习方法,经典的Policy Gradient通过一个参数化决策模型来根据状态
确定动作,其参数更新是通过下式进行的:
用于衡量决策模型的优劣目标,决策模型的优化目标为寻找最优决策,使得该决策下整体价值最大。
因为最优决策是未知的,一种简单思路是直接当前参数模型
进行寻优。称为Vanilla Policy Gradient。
1. Vanilla Policy Gradient
Vanilla Policy Gradient定义优化目标为:
表示一轮ep