Task04: 演员-评论家算法（Actor-Critic）

原创

已于 2022-09-02 13:54:34 修改 · 2.5k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #人工智能 #深度学习 #机器学习

于 2022-09-01 11:44:13 首次发布

演员-评论家算法(Actor-Critic Algorithm)是一种结合策略梯度和时序差分学习的强化学习方法，其中：

演员(Actor)是指策略函数 $\pi_{\theta}(a|s)$ ，即学习一个策略来得到尽量高的回报。

评论家(Critic)是指值函数 $V^{\pi}(s)$ ，对当前策略的值函数进行估计，即评估演员的好坏。

借助于值函数，演员-评论家算法可以进行单步更新参数，不需要等到回合结束才进行更新。

Actor-Critic 算法又可以根据更新策略的不同，分为：

如果去掉 Asynchronous，只有 Advantage Actor-Critic，就叫做 A2C。
如果加了 Asynchronous，变成 Asynchronous Advantage Actor-Critic，就变成 A3C。

Previously on EasyRL

这里我们引入 G 来表示累积奖励。
但 G 这个值，其实是非常不稳定的。因为互动的过程本身是有随机性的，所以在某一个状态 s 采取某一个动作 a，然后计算累积奖励，每次算出来的结果都是不一样的，即 G 是一个随机变量。
既然 G 是随机变量，我们就可以对 G 做采样，然后再采样结果的基础上，算出 G 的期望值—— $E\left[G_{t}^{n}\right]$ 。