【强化学习】强化学习数学基础：Actor-Critic方法_强化学习只actor-critic-优快云博客

本文链接：https://blog.youkuaiyun.com/ARPOSPF/article/details/129496742

Actor-Critic方法是一种结合策略梯度和值函数估计的强化学习算法。QAC是最简单的形式，通过策略更新和Sarsa+值函数近似进行。A2C通过引入基线来降低方差，利用优势函数进行优化。Off-policyActor-Critic通过重要性采样允许使用非目标策略的数据。最后，DPG介绍了确定性策略梯度，适用于连续动作空间。这些算法展示了强化学习中策略优化的不同策略和技巧。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Actor-Critic方法

1. The simplest actor-critic(QAC)
2. Advantage actor-critic(A2C)
- Baseline invariance
- The algorithm of advantage actor-critic
3. Off-policy actor-critic
4. Deterministic actor-critic(DPG)
- The theorem of deterministic policy gradient
- The algorithm of deterministic actor-critic
内容来源

Actor-Critic方法是一个非常重要的policy gradient methods。这一类方法强调的一种整合策略梯度和value-based方法的结构。
什么是“ actor”和“ critic”？

“actor”表示policy update。它被称为actor是因为policies will be applied to take actions。
“critic”表示policy evaluation或者value estimation。它被称为critic是因为it criticizes the policy by evaluating it。

1. The simplest actor-critic(QAC)

重新回顾policy gradient的思想：

我们可以从这个算法中看到“actor”和“critic”：

这个算法对应actor！
这个算法估计 $q_t(s_t,a_t)$ 对应ctitirc！ $q_t$ 是 $q_\pi$ 的近似

如何得到 $q_t(s_t, a_t)$ ？到目前为止，我们已经学习过两种方法来估计action values：

现在给出第一个Actor-Critic算法：QAC
QAC
对上面算法做一些补充说明：

critic对应“Sarsa+value function approximation”
actor对应policy update algorithm.
这个算法是on-policy，为什么呢？
- 因为这个policy是stochastic，no need to use techniques like $\epsilon$ -greedy
这个特殊的actor-critic algorithm有时候也被称为Q Actor-Critic（QAC）。
尽管简单，但是该算法揭示了actor-critic方法的核心思想。它可以被扩展到其他算法当中。

2. Advantage actor-critic(A2C)

A2C是QAC的一个推广。基本思想是它在reduce variance过程中引入了一个baseline。

Baseline invariance

首先介绍一个性质，the policy gradient is invariant to an additional baseline：
Property
这里，the additional baseline $b (S)$ 是 $S$ 的一个scale function。

两个问题：

为什么引入一个新的b(S)它不会发生变化？
为什么要关注这个 $b (S)$ ，它究竟有什么用？

第一个问题，为什么引入一个新的 $b (S)$ 公式仍然成立？这是因为

细节如下：
the detail
第二个问题，为什么这个baseline是有用的？首先把刚才的这个梯度 $\nabla_\theta J(\theta)=\mathbb{E}[X]$ ，把这个 $\mathbb{E}[X]$ 写成一个新的变量 $X$ ：
E(X)
我们有：

$\mathbb{E}[X]$ 对于 $b (S)$ 是invariant
方差 $v a r (X)$ 对于 $b (S)$ 不是invariant
- 为什么？因为 $tr[var(X)]=\mathbb{E}[X^T-X]-\bar{x}^T\bar{x}$ ，并且
  
  当b是非常巨大的时候，对于E的影响也是不一样的。

我们的目标：寻找一个最优的baseline $b$ 最小化 $v a r (X)$

Benefit：当我们使用一个随机采样去近似 $\mathbb{E}[X]$ 的时候，the estimation variance应当是较小的。

在REINFORCE和QAC算法中：

没有baseline
或者，我们可以说 $b = 0$ ，也就是not guaranteed to be a good baseline。

能够最小化方差 $v a r (X)$ 的最优baseline应当是，对于任意 $s\in \mathcal{S}$ ，有
optimal baseline

尽管这个baseline是最优的，但是它太复杂了
所以，我们可以移除权重 $||\nabla_\theta \ln \pi (A|s, \theta_t)||^2$ 并且选择次优的baseline： $b(s)=\mathbb{E}_{A\sim \pi}[q(s,A)]=v_\pi(s)$ 这是s的state value！

The algorithm of advantage actor-critic

当 $b(s)=v_\pi(s)$ ，

the gradient-ascent algorithm是：

其中 $\delta_\pi(S,A)\doteq q_\pi(S,A)-v_\pi(S)$ 被称为advantage function（为什么称为advantage？其实它描述的是 $q_\pi$ 和 $v_\pi$ 之间的差，而 $v_\pi$ 是 $q_\pi$ 在某一个状态下它的一个平均值，那么如果对应的某一个action是比这个平均值要大，那就说明这个action肯定是比较好的，所以它是有一定的优势的）
这个算法的stochastic version是：

进一步地，算法被重新表示为：
algorithm
这里边其实想要强调的是：

the step size is proportional to the relative value $\delta_t$ ，而不是absolute value $q_t$ ，这是更合理的。
它能够平衡exploration和exploitation。

更进一步地，the advantage function是由TD error近似： $\delta_t=q_t(s_t,a_t)-v_t(s_t)\rightarrow r_{t+1}+\gamma v_t(s_{t+1})-v_t(s_t)$

这种近似是reasonable，是因为：
这么做的好处是：只需要一个神经网络去近似 $v_\pi(s)$ ，而不需要两个网络去近似 $q_\pi(s,a)$ 和 $v_\pi(s)$ 。

这样，我们就得到了A2C这个算法：
在这里插入图片描述
这是一个on-policy的算法，因为策略 $\pi(\theta_t)$ 是stochastic，不需要使用像 $\epsilon$ -greedy的这些方法。

3. Off-policy actor-critic

Policy gradient是on-policy，因为the gradient 是 $\nabla_\theta J(\theta )=\mathbb{E}_{S\sim \eta, A\sim \pi}[*]$ 。那么我们是否可以把它转化为off-policy吗？当然是可以的，通过importance sampling就可以。the importance sampling technique is not limited to AC, but also to any algorithm that aims to estimate an expectation.

Illustrative examples

考虑一个随机变量 $X\in \mathcal{X}=\{+1, -1\}$ 。如果X的概率分布是 $p_0$ ： $p_0(X=+1)=0.5, p_0(X=-1)=0.5$ 那么 $X$ 的expectation是 $\mathbb{E}_{X\sim p_0}[X]=(+1)\cdot 0.5+(-1)\cdot 0.5=0$
那么问题是：如何使用一些采样 ${x_i\}$ 来估计 $\mathbb{E}[X]$ ？考虑两种情况：
第一种情况：
根据 $p_0$ 生成采样 ${x_i\}$ : $\mathbb{E}[x_i]=\mathbb{E}[X], var[x_i]=var[X]$ 然后，the average value可以收敛到the expectation: $\bar{x}=\frac{1}{n}\sum_{i=1}^nx_i\rightarrow \mathbb{E}[X], \text{as } n\rightarrow \infty$ 因为 $\mathbb{E}[\bar{x}]=\mathbb{E}[X], var[\bar{x}]=\frac{1}{n}var[X]$

第二种情况：
样本 ${x_i\}$ 是根据另一个分布 $p_1$ 生成的： $p_1(X=+1)=0.8, p_1(X=-1)=0.2$ The expectation是 $\mathbb{E}_{X\sim p_0}[X]=(+1)\cdot 0.8+(-1)\cdot 0.2=0.6$ 如果我们使用样本的平均值，那么 $\bar{x}=\sum_{i=1}^n \frac{1}{n}x_i\rightarrow \mathbb{E}_{X\sim p_1}[X]=0.6\ne \mathbb{E}_{X\sim p_0}[X]$
importance sampling
我们的问题是：是否可以使用 $\{x_i\}\sim p_1$ 去估计 $\mathbb{E}_{X\sim p_0}[X]$ ？

为什么要这样做？因为我们想估计 $\mathbb{E}_{A\sim \pi}[*]$ ，其中 $\pi$ 是基于一个behavior policy $\beta$ 的采样数据的target policy。
如何做到这一点？
- 我们不能直接使用 $\bar{x}$ ： $\bar{x}=\mathbb{E}_{X\sim p_1}[X]=0.6\ne \mathbb{E}_{X\sim p_0}[X]$
- 我们可以通过importance sampling technique来实现。

Importance sampling

最核心的式子:
importance sampling
有了这个式子，我们可以估计 $\mathbb{E}_{X\sim p_1}[f(X)]$ 以达到估计 $\mathbb{E}_{X\sim p_0}[X]$ 的目的。
那么如何估计 $\mathbb{E}_{X\sim p_1}[f(X)]$ 呢？
大数定理
因此， $\bar{f}$ 又可以用来近似 $\mathbb{E}_{X\sim p_1}[f(X)]=\mathbb{E}_{X\sim p_0}[X]$ ：
终极算法

$\frac{p_0(x_i)}{p_1(x_i)}$ 被称为importance weight。
- 如果 $p_1(x_1)=p_0(x_i)$ ，那么importance weight是1，并且 $f$ 变为了 $\bar{x}$ 。
- 如果 $p_1(x_1)\ge p_0(x_i)$ ，那么 $x_i$ 在 $p_0$ 下被采样到的概率比在 $p_1$ 下大。这个importance weight $(> 1)$ 可以强调这个采样的重要性。

也许会问：当 $f=\frac{1}{n}\sum _{i=1}^n\frac{p_0(x_i)}{p_1(x_i)}x_i$ ，如果我知道 $p_0(x)$ ，为什么没有直接计算the expectation?
回答：It is applicable to the case where it it easy to calculate $p_0(x)$ given an x，但是difficult to calculate the expectation。

例如，在连续的情况下， $p_0(x)$ 的表达式是复杂的，或者没有 $p_0(x)$ 的表达式（例如， $p_0(x)$ 用一个神经网络表示）。

小结：如果 $\{x_i\}\sim p_1$ ，
summary

The theorem of off-policy policy gradient

就像上面的on-policy的情况，我们需要将policy gradient推导到off-policy的情况。

假设 $\beta$ 是the behavior policy，用来生成experience samples
我们的目标是用这些samples去更新一个target policy $\pi$ ，使其可以最小化下面的度量：

其中 $d_\beta$ 是在policy $\beta$ 条件下的stationary distribution。

这个目标函数对应的gradient就是下面的定理：
Off-policy gradient theorem

The algorithm of off-policy actor-critic

同样地，The off-policy policy gradient对于一个baseline $b (s)$ 也是invariant。

具体地，我们有
为了减少估计方差，我们选择 $b(S)=v_\pi(S)$ 作为baseline，然后得到：

对应的stochastic gradient-ascent algorithm是

与on-policy case中的情况相似，

然后，这个算法变为
algorithm change
因此
hence
The algorithm of off-policy actor-critic：
The algorithm of off-policy actor-critic

4. Deterministic actor-critic(DPG)

直到现在，用在policy gradient methods中的policies全部都是stochastic，因为对于所有的 $(s, a)$ ， $\pi(a|s,\theta)>0$ 。

那么，是否可以在policy gradient methods中使用deterministic policies呢？首先我们为什么要关心这个deterministic policies呢，因为它可以处理continuous action。

表示一个策略的方式：

直到现在，一个普通的策略的定义是 $\pi(a|s, \theta)\in[0,1]$ ，既可以是stochastic，也可以是deterministic。
现在，deterministic policy可以直接定义为 $a=\mu (s,\theta)\doteq \mu(s)$
- $\mu$ 是从 $KaTeX parse error: Undefined control sequence: \methcal at position 1: \̲m̲e̲t̲h̲c̲a̲l̲{S}$ 到 $\mathcal{A}$ 的一个映射
- $\mu$ 可以由，例如，输入是 $s$ ，输出是 $a$ ，参数是 $\theta$ 的神经网络表示
- 可以将 $\mu(s,\theta)$ 简写为 $\mu(s)$

The theorem of deterministic policy gradient

之前得到的policy gradient theorem是merely valid for stochastic policies。如果policy必须是deterministic，那么必须derive a new policy gradient theorem。

首先，我们要有一个目标函数。consider the metric of average state value in the discounted case: $J(\theta)=\mathbb{E}[v_\mu (s)]=\sum _{s\in \mathcal{S}}d_0(s)v_\mu(s)$ 其中 $d_0(s)$ 是满足 $\sum _{s\in \mathcal{S}}d_0(s)=1$ 的一个概率分布。

$d_0$ 与 $\mu$ 没有什么关系。在这种情况下，容易计算梯度。
在选择 $d_0$ 上，有两种重要而又特殊的情况：
- 第一种，只关心某一个状态，比如有一个任务，每次开始这个任务，都会从这个状态出发，那么其他状态无所谓，只要最大化从这个状态出发它的return就可以了。这个时候令 $d_0(s_0)=1$ ， $d_0(s\ne s_0)=0$ ，其中 $s_0$ 就是我们感兴趣的特殊出发状态。
- 第二种， $d_0$ 是一个stationary distribution of a behavior policy，that is different from the $\mu$ 。

Theorem
这与之前stochastic case的一个重要的差异在于：

the gradient 没有涉及到action $A$ 的分布（为什么？因为这个action A最后会被替换成 $\mu(S)$ ）
因此，the deterministic policy gradient method是一个off-policy的算法。

The algorithm of deterministic actor-critic

基于policy gradient，the gradient-ascent algorithm就可以最大化 $J(\theta)$ ：

因为 $\mathbb{E}$ 是不能被计算的，所以使用stochastic gradient来进行代替，对应的stochastic gradient-ascent algorithm就是：

相应对的deterministic actor-critic算法如下：

补充说明：

这是一个off-policy implementation，其中the behavior policy $\beta$ 可能与 $\mu$ 不同
$\beta$ 也可以由 $\mu+\text{noise}$ 替代
如何选取函数以表示 $q (s, a, w)$ ？
- Linear function： $q(s,a,w)=\phi^T(s,a)w$ ，其中 $\phi(s,a)$ 是feature vector。
- Neural function：deep deterministic policy gradient (DDPG) method。