策略梯度算法

最新推荐文章于 2025-07-22 17:19:17 发布

原创

最新推荐文章于 2025-07-22 17:19:17 发布 · 9.8k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#强化学习

策略梯度算法这一课我觉得还挺抽象的，有些也听不是太懂，可能是因为这一课的视频里帅帅的David没有出现……只有PPT，而且配合声音切换得不太好，看着很是不爽。不过看完了还是要来整理啊，不然像我这种不现学现用的，过几天就忘了hh，岂不是白看~好啦言归正传！

策略梯度的思想在上一篇文章中已经简要介绍过，可以用来快速逼近函数值，这一课就主要来介绍一下用策略梯度优化的核心思想和常用的三种方法，由浅入深是Finite Differences Policy Gradient 、Monte Carlo Policy Gradient 、Actor-Critic Policy Gradient。

一、算法思想

在上一篇值函数近似算法中，我们用带有参数w的函数估计值来近似价值函数V（s）或动作价值函数Q（s , a），从而来选择或是说调整能够优化函数值的策略，这是我们常说的基于值函数的方法（Value-Based）。事实上，我们想做的就是对策略的控制，在策略梯度算法中，我们直接对策略进行参数化，通过控制这些参数权重，直接选择比较好的行为，也就是基于策略的方法（Policy-Based）。