强化学习（6）：Actor-Critic（演员评论家）算法

最新推荐文章于 2025-03-13 16:06:27 发布

原创最新推荐文章于 2025-03-13 16:06:27 发布 · 8.7k 阅读

·

6

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#强化学习 #AC算法 #actor-critic #演员-评论家

强化学习专栏收录该内容

13 篇文章

订阅专栏

本文深入探讨了Actor-Critic算法，一种结合了PolicyGradient和Q-Learning优点的强化学习方法。该算法通过Actor网络（基于策略）和Critic网络（基于值函数）的相互作用，实现了高效的行为选择和价值评估，特别适用于连续动作空间的问题。

本文主要讲解有关 Actor-Critic 算法的有关知识。

一、Actor Critic 算法

Actor-Critic 算法合并了以策略为基础的 Policy Gradient和以值为基础的 Q-Learning 两类强化学习算法，该算法中将前者当作 Actor，用来基于概率选择行为。将后者当作 Critic，用来评判 Actor 的行为得分，然后 Actor 又会根据 Critic 的评分修改行为的概率。这使得它既可以在有效的处理连续动作的选取，又可以进行单步更新（PG算法的回合更新降低了学习效率）。

下面分别介绍一下 Actor 网络和 Critic 网络这个两个部分。

二、Actor 网络

Actor 网络采用的是基于策略的 Policy-Gradient 算法。PG 算法的损失函数可以表示为： $loss=−E[log⁡[π(a∣s)]⋅ψ]loss=-E[\log{[\pi(a|s)]}\cdot \psi]$ ，其中 $ψ\psi$ 是对某个轨迹的评分，在 AC 算法中它可以有多种表示方式：

状态价值函数：V(s)
动作价值函数：Q(s,a)
TD-error： $r+γ⋅Q(st+1,at+1)−Q(st,at)r+\gamma\cdot Q(s_{t+1},a_{t+1})-Q(s_t,a_t)$
优势函数：V(s,a)
总回报： $∑rt\sum r_t$
加入基线的总回报： $∑rt−b\sum r_t-b$

在实际编写代码的时候，使用的是 TD-error 来作为评价，同时为了鼓励探索（exploration），所以损失函数中还加入了交叉熵损失。

三、Critic 网络

Critic 网络采用的是基于值函数的 Q-Learning 算法，采用的是 $loss=(TD\_{error})^2$ 作为 Critic 网络的损失函数。

整个 Actor Critic 算法可以用下图表示：

actor-critic

四、AC 算法的缺点

AC 取决于 Critic 的价值判断, 但是 Critic 难收敛, 再加上 Actor 的更新, 就更难收敛，为了解决该问题又提出了 DDPG 算法和 A3C 算法。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。