Daily AI 20250403 (深度强化学习算法)

原创于 2025-04-07 03:38:09 发布 · 805 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #神经网络 #深度学习 #算法 #机器学习

每日AI一下专栏收录该内容

8 篇文章

订阅专栏

参考资料：神经网络与深度学习

深度强化学习

- 深度强化学习

深度强化学习

1.4.深度 $Q$ -网络

为在连续的状态和动作空间中计算值函数 $Q^\pi(s, a)$ ，我们可以用一个函数 $Q_\phi(\boldsymbol{s}, \boldsymbol{a})$ 来表示近似计算，称为值函数近似：
$Q_\phi(\boldsymbol{s}, \boldsymbol{a}) \approx Q^\pi(s, a)$
其中 $\boldsymbol{s}, \boldsymbol{a}$ 分别是状态 $s$ 和动作 $a$ 的向量表示；函数 $Q_\phi(\boldsymbol{s}, \boldsymbol{a})$ 通常是一个参数为 $\phi$ 的函数，比如神经网络，输出为一个实数，称为 Q 网络。对于 $M$ 个离散动作而言，Q网络可相应输出相应的值函数的值：
$Q_\phi(\boldsymbol{s})=\left[\begin{array}{c} Q_\phi\left(\boldsymbol{s}, a_1\right) \\ \vdots \\ Q_\phi\left(\boldsymbol{s}, a_M\right) \end{array}\right] \approx\left[\begin{array}{c} Q^\pi\left(s, a_1\right) \\ \vdots \\ Q^\pi\left(s, a_M\right) \end{array}\right]$
为解决传统Q-learning在高维状态空间中无法保存完整Q表的问题，深度Q网络（Deep Q-Network，DQN）是将深度学习方法与Q-learning相结合，通过学习参数 $\phi$ ，利用深度神经网络来逼近Q函数。相应的损失函数为：
$\mathcal{L}(\phi)=\mathbb{E}_{\left(s, a, r, s^{\prime}\right) \sim D}\left[(y-Q_{\phi}(s, a))^2\right]$

$\phi$ ：当前 Q 网络参数；
$\phi^{-}$ ：目标网络参数，每隔C步从 $\phi$ 更新一次；
$D$ ：经验回放缓冲池（replay buffer）。

具体执行过程为：

通过 $\varepsilon$ －greedy 选择动作 a
执行动作 $a$ ，观察 $\left(s, a, r, s^{\prime}\right)$
将 $(s, a, r, s^{'})$ 存入经验回放池 $D$
从经验回放池 D 采样一批数据
计算目标值 $y=r+\gamma \max _{a^{\prime}} Q\left(s^{\prime}, a^{\prime} ; \phi^{-}\right)$
通过梯度下降更新 $Q$ 网络参数 $\phi$
定期更新目标网络 $\phi^{-}$ (反向传播梯度更新)

在基于值函数（即 $Q$ -Function）的学习方法中，策略一般为确定性策略。策略优化通常都依赖于值函数（即策略被值函数的性质所决定），比如贪心策略 $\pi(s)=\arg \max _a Q(s, a)$ 。最优策略一般需要遍历当前状态 s 下的所有动作，并找出最优的 $Q (s, a)$ 。当动作空间离散但是很大时，遍历求最大需要很高的时间复杂度；当动作空间是连续的并且 $Q (s, a)$ 非凸时，也很难求解出最佳的策略．

2.基于策略函数的学习方法

${\color{red}强化学习的目标是学习到一个策略 \pi_\theta(a \mid s) 来最大化期望回报，其中\theta为网络参数}$ 。一种直接的方法是在策略空间直接搜索来得到最佳策略，称为策略搜索（Policy Search）。策略搜索本质是一个优化问题，可以分为基于梯度的优化和无梯度优化。策略搜索和基于值函数的方法相比，策略搜索可以不需要值函数，直接优化策略。参数化的策略能够处理连续状态和动作，可以直接学出随机性策略。

基于梯度的策略优化，即根据策略梯度进行梯度上升以优化 $\pi_\theta(a \mid s)$ 中的 $\theta$ （假定 $\pi$ 关于 $\theta$ 连续可微）。对于强化学习的目标函数：
$\mathcal{J}(\theta)=\mathbb{E}_{\tau \sim p_\theta(\tau)}[G(\tau)]=\mathbb{E}_{\tau \sim p_\theta(\tau)}\left[\sum_{t=0}^{T-1} \gamma^t r_{t+1}\right]$
其中 $\theta$ 为策略函数的参数。 $p_\theta(\tau)$ 为基于策略 $\pi_\theta(a \mid s)$ 得到轨迹 $\tau$ 的概率。其关于 $\theta$ 的导数为：
$\begin{aligned} \frac{\partial \mathcal{J}(\theta)}{\partial \theta} & =\frac{\partial}{\partial \theta} \int p_\theta(\tau) G(\tau) \mathrm{d} \tau \\ & =\int\left(\frac{\partial}{\partial \theta} p_\theta(\tau)\right) G(\tau) \mathrm{d} \tau \\ & =\int p_\theta(\tau)\left(\frac{1}{p_\theta(\tau)} \frac{\partial}{\partial \theta} p_\theta(\tau)\right) G(\tau) \mathrm{d} \tau \\ & =\int p_\theta(\tau)\left[\left(\frac{\partial}{\partial \theta} \log p_\theta(\tau)\right) G(\tau) \right] \mathrm{d} \tau \\ & =\mathbb{E}_{\tau \sim p_\theta(\tau)}\left[\frac{\partial}{\partial \theta} \log p_\theta(\tau) G(\tau)\right] \end{aligned}$
其中，第二行即莱布尼茨法则，第四行即链式法则。上式表明可通过采样轨迹（用当前策略执行多次）来估计梯度，而不需要知道轨迹分布的精确形式。参数 $\theta$ 优化的方向是朝向使得 $G(\tau)$ 越大的轨迹 $\tau$ 的概率 $p_\theta(\tau)$ 也越大。
$\frac{\partial}{\partial \theta} \log p_\theta(\tau)$ 可以进一步分解为：
$\begin{aligned} \frac{\partial}{\partial \theta} \log p_\theta(\tau) &=\frac{\partial}{\partial \theta} \log \left(p\left(s_0\right) \prod_{t=0}^{T-1} \pi_\theta\left(a_t \mid s_t\right) p\left(s_{t+1} \mid s_t, a_t\right)\right) \\ & \quad=\frac{\partial}{\partial \theta}\left(\log p\left(s_0\right)+\sum_{t=0}^{T-1} \log \pi_\theta\left(a_t \mid s_t\right)+\sum_{t=0}^{T-1} \log p\left(s_{t+1} \mid s_t, a_t\right)\right) \\ & \quad=\sum_{t=0}^{T-1} \left[ \frac{\partial}{\partial \theta} \log \pi_\theta\left(a_t \mid s_t\right) \right] \end{aligned}$
可以看出， $\frac{\partial}{\partial \theta} \log p_\theta(\tau)$ 是和状态转移概率无关，只和策略函数相关。基于上式，策略梯度可进一步写为：
$\begin{aligned} \frac{\partial \mathcal{J}(\theta)}{\partial \theta} & =\mathbb{E}_{\tau \sim p_\theta(\tau)}\left[\left(\sum_{t=0}^{T-1} \frac{\partial}{\partial \theta} \log \pi_\theta\left(a_t \mid s_t\right)\right) G(\tau)\right] \\ & =\mathbb{E}_{\tau \sim p_\theta(\tau)}\left[\left(\sum_{t=0}^{T-1} \frac{\partial}{\partial \theta} \log \pi_\theta\left(a_t \mid s_t\right)\right)\left(G\left(\tau_{0: t}\right)+\gamma^t G\left(\tau_{t: T}\right)\right)\right] \\ & ={\color{red} \mathbb{E}_{\tau \sim p_\theta(\tau)}\left[\sum_{t=0}^{T-1}\left(\frac{\partial}{\partial \theta} \log \pi_\theta\left(a_t \mid s_t\right) \gamma^t G\left(\tau_{t: T}\right)\right)\right] }, \end{aligned}$
其中，
第二行是由于： $G(\tau)=\sum_{k=0}^{T-1} \gamma^k r_k=\left(\sum_{k=0}^{t-1} \gamma^k r_k\right)+\left(\sum_{k=t}^{T-1} \gamma^k r_k\right)$ ，其中 $\sum_{k=t}^{T-1} \gamma^k r_k=\gamma^t \cdot \sum_{k=t}^{T-1} \gamma^{k-t} r_k=\gamma^t G\left(\tau_{t: T}\right)$ ，故 $G(\tau)=G\left(\tau_{0: t}\right)+\gamma^t G\left(\tau_{t: T}\right)$
第三行是由于：忽略 $G\left(\tau_{0: t}\right)$ ，因为它不依赖当前动作 $a_t$ ，而是和之前的动作有关。

2.1.REINFORCE算法

基于上述梯度形式（红色），期望可以通过采样的方法来近似．根据当前策略 $\pi_\theta$ ，通过随机游走的方式来采集多个轨迹 $\tau^{(1)}, \tau^{(2)}, \cdots, \tau^{(N)}$ ，其中每一条轨迹 $\tau^{(n)}=$ $s_0^{(n)}, a_0^{(n)}, s_1^{(n)}, a_1^{(n)}, \cdots$ 。这样，策略梯度 $\frac{\partial \mathcal{G}(\theta)}{\partial \theta}$ 可以写为
$\frac{\partial \mathcal{J}(\theta)}{\partial \theta} \approx \frac{1}{N} \sum_{n=1}^N\left(\sum_{t=0}^{T-1} \frac{\partial}{\partial \theta} \log \pi_\theta\left(a_t^{(n)} \mid s_t^{(n)}\right) \gamma^t G_{\tau_{t: T}^{(n)}}\right)$
结合随机梯度上升算法，我们可以每次采集一条轨迹，计算每个时刻的梯度并更新参数，即REINFORCE 算法，梯度上升更新策略函数参数：
$\theta \leftarrow \theta+\alpha \gamma^t G\left(\tau_{t: T}\right) \frac{\partial}{\partial \theta} \log \pi_\theta\left(a_t \mid s_t\right)$

2.2.带基准线的REINFORCE算法

在REINFORCE算法基础上，引入一个控制变量，减小不同采样路径间的方差。

2.3.演员-评论家算法

演员-评论家算法结合策略梯度和时序差分学习，演员是指策略函数 $\pi_\theta(a \mid s)$ ，即学习一个策略来得到尽量高的回报，评论员（Critic）是指值函数 $V_\phi(s)$ ，对当前策略的值函数进行估计，即评估演员的好坏。借助于值函数，演员－评论员算法可以进行单步更新参数，不需要等到回合结束才进行更新。在演员－评论员算法中的策略函数 $\pi_\theta(s, a)$ 和值函数 $V_\phi(s)$ 都是待学习的函数，需要在训练过程中同时学习。
假设从时刻 $t$ 开始的回报 $G\left(\tau_{t: T}\right)$ 用以下公式近似计算：
$\hat{G}\left(\tau_{t: T}\right)=r_{t+1}+\gamma V_\phi\left(s_{t+1}\right)$
在每步更新中，分别进行策略函数 $\pi_\theta(s, a)$ 和值函数 $V_\phi(s)$ 的学习．一方面，更新参数 $\phi$ 使得值函数 $V_\phi\left(s_t\right)$ 接近于估计的真实回报 $\hat{G}\left(\tau_{t: T}\right)$ ，即minimize MSE：
$\min _\phi\left(\hat{G}\left(\tau_{t: T}\right)-V_\phi\left(s_t\right)\right)^2$
另一方面，将值函数 $V_\phi\left(S_t\right)$ 作为基线函数来更新参数 $\theta$ ，减少策略梯度的方差，即
$\theta \leftarrow \theta+\alpha \gamma^t {\color{red} \left(\hat{G}\left(\tau_{t: T}\right)-V_\phi\left(s_t\right)\right) } \frac{\partial}{\partial \theta} \log \pi_\theta\left(a_t \mid s_t\right) .$
在每步更新中，演员根据当前的环境状态 $s$ 和策略 $\pi_\theta(a \mid s)$ 去执行动作 $a$ ，环境状态变为 $s^{\prime}$ ，并得到即时奖励 $r$ ．评论员（值函数 $V_\phi(s)$ ）根据环境给出的真实奖励和之前标准下的打分 $\left(r+\gamma V_\phi\left(s^{\prime}\right)\right)$ ，来调整自己的打分标准，使得自己的评分更接近环境的真实回报．演员则跟据评论员的打分，调整自己的策略 $\pi_\theta$ ，争取下次做得更好．开始训练时，演员随机表演，评论员随机打分．通过不断的学习，评论员的评分越来越准，演员的动作越来越好。梯度上升更新策略函数参数与值函数参数：
$\begin{aligned} & 在状态 s ，选择动作 a=\pi_\theta(a \mid s) \\ & 执行动作 a，得到即时奖励 r 和新状态 s^{\prime} \\ & \delta \leftarrow r+\gamma V_\phi\left(s^{\prime}\right)-V_\phi(s) ;\\ & \phi \leftarrow \phi+\beta \delta \frac{\partial}{\partial \phi} V_\phi(s) ; -更新值函数参数\\ & \theta \leftarrow \theta+\alpha \lambda \delta \frac{\partial}{\partial \theta} \log \pi_\theta(a \mid s) ; -更新策略函数参数 \\ & \lambda \leftarrow \gamma \lambda ; \\ & s \leftarrow s^{\prime} ; \end{aligned}$
算法中 $\lambda$ 的作用：