第六章 REINFORCE和A2C

最新推荐文章于 2025-05-16 01:09:02 发布

原创最新推荐文章于 2025-05-16 01:09:02 发布

· 1.6k 阅读

43 ·

版权

文章标签：

#算法

强化学习专栏收录该内容

9 篇文章

订阅专栏

文章目录

前言
一、Baseline
二、Reinforce with Baseline
三、Advantage Actor-Critic(A2C)
- 1.A2C的神经网络结构
- 2.训练神经网络

前言

提示：这里可以添加本文要记录的大概内容：

本章介绍REINFORCE with Baseline的搭建以及A2C的搭建。

一、Baseline

1.公式回顾：

(1)状态价值函数：V_π(s) = IE_A~π[Q_π(s,A)] = Σ_aπ(a|s;θ)·Q_π(s,a)
它是关于动作价值函数的期望，A是随机变量，π(a|s;θ)是策略网络
(2)策略梯度： $\frac{∂V(s)}{∂θ}$ = IE_A~π[ $\frac{∂lnπ(A|s;θ)}{∂θ}$ · Q_π(s,A)]

2.定义Baseline

1.设Baseline为b,b不依赖于动作A,则有如下结论：
IE_A~π[b · $\frac{∂lnπ(A|s;θ)}{∂θ}$ ] = 0

2.策略梯度可表示为：

$\frac{∂V(s)}{∂θ}$

= IE_A~π[ $\frac{∂lnπ(A|s;θ)}{∂θ}$ · Q_π(s,A)] - IE_A~π[b · $\frac{∂lnπ(A|s;θ)}{∂θ}$ ]

= IE_A~π[ $\frac{∂lnπ(A|s;θ)}{∂θ}$ · (Q_π(s,A) - b)]
b不影响期望，但是会影响蒙特卡洛对期望的近似，使蒙特卡洛方差降低，收敛更快。

3.常见的Baseline

1.b = V_π(s_t)
合理性：
·s_t是先于a_t被观测到的，因此不依赖于A_t
·根据定义，V_π是对Q_π的期望，很接近Q_π

二、Reinforce with Baseline

1.策略梯度的近似

1.g(a_t) = $\frac{∂lnπ(a_t|s_t;θ)}{∂θ}$ · (Q_π(s_t,a_t) - V_π(s_t))
无法计算Q_π(s_t,a_t)和V_π(s_t)，需要用蒙特卡洛近似
2.算法REINFORCE近似Q_π：
(1) 观测Agent的动作状态轨迹：s_t,a_t,r_t,s_t+1,a_t+1,r_t+1…
(2)u_t = Σ ⁿ_i=t(γ^i-t * r_i)，u_t就是Q_π的无偏估计
3.神经网络v(s;w)近似V_π
4.策略梯度的近似结果：
g(a_t) = $\frac{∂lnπ(a_t|s_t;θ)}{∂θ}$ · (u_t - v(s;w))

2.搭建训练需要的神经网络

2.1、策略网络π(a|s;θ)结构

(1)输入：状态s
(2)中间层：卷积层处理s得到一个特征向量，全连接层将向量映射到某个向量上
(3)输出：最后经过softmax函数输出动作的概率

2.2、价值网络v(s;w)结构

(1)输入：状态s
(2)中间层：卷积层和全连接层
(3)输出：Baseline

2.3、训练两个网络

令-δ_t = u_t - v(s;w)
(1)训练策略网络： θ = θ + β · g(a_t) = θ - β · δ_t · $\frac{∂lnπ(a_t|s_t;θ)}{∂θ}$
(2)训练价值网络：
损失:δ_t = v(s;w) - u_t
梯度： $\frac{∂δ^2_t/2}{∂w}$ = δ_t · $\frac{∂v(s_t;w)}{∂w}$
梯度下降：w = w - α · δ_t · $\frac{∂v(s_t;w)}{∂w}$

三、Advantage Actor-Critic(A2C)

将Baseline用在Actor-Critic上就得到了Advantage Actor-Critic

1.A2C的神经网络结构

(1)策略网络(actor)：π(a|s;θ)，用来近似策略函数π(a|s)，控制agent作出动作。
(2)价值网络(critic)：v(s;w)，用来近似状态价值函数V_π(s)，评价状态的好坏。

2.训练神经网络

(1)观测到一条transition(s_t,a_t,r_t,s_t+1)
(2)计算TD target：y_t = r_t + γ · v(s_t+1;w)
(3)计算TD error：δ_t = v(s_t;w) - y_t
(4)更新策略网络参数θ：
θ = θ - β · δ_t $\frac{∂lnπ(a_t|s_t;θ)}{∂θ}$
(5)更新价值网络参数w：
w = w - α · δ_t · $\frac{∂v(s_t;w)}{∂w}$