8.1 策略梯度方法:从REINFORCE到PPO算法 在前面的章节中,我们学习了基于价值的强化学习方法,如Q-Learning和DQN。这些方法通过估计状态或状态-动作的价值来学习最优策略。今天,我们将探索另一种重要的强化学习范式——策略梯度方法。 策略梯度方法概述 策略梯度方法直接参数化策略函数π(a|s;θ),并通过梯度上升来优化策略参数θ,以最大化期望回报。与基于价值的方法相比,策略梯度方法具有以下优势: