【深度强化学习二】Q-Learning小技巧（2）（李宏毅老师学习视频笔记）

深度强化学习进阶

最新推荐文章于 2022-10-20 16:23:10 发布

原创最新推荐文章于 2022-10-20 16:23:10 发布 · 258 阅读

1 ·

CC 4.0 BY-SA版权

深度强化学习专栏收录该内容

3 篇文章

订阅专栏

本文深入探讨了深度强化学习的改进方法，包括DoubleDQN、DuelingDQN、PrioritizedReply、Multi-step、NoisyNet等策略，以及针对连续动作空间的Q-learning应用。通过这些方法，可以有效解决Q值过估问题，提高学习效率。

首先放视频地址李宏毅老师深度强化学习视频。
上一篇初识Q-Learning讲了一些基础知识，本篇记录改进内容。

Double DQN

在DQN中，Q值总是会被高估，因为 $Q\left(s_{t}, a_{t}\right)$ 的target是 $r_{t}+\max _{a} Q\left(s_{t+1}, a\right)$ ，估计的Q值中某个action的值偏高，在max操作时就很可能会选到这个。这样会导致Q值越估越大。因此有了Double Q-Learning的思想，即选取action的Q网络不变，选出action后，用另外一个网络 $Q^\prime$ 计算Q值。即target 为 $r_{t}+Q^{\prime}\left(s_{t+1}, \arg \max _{a} Q\left(s_{t+1}, a\right)\right)$ 这样就可以避免overestimate问题。在实作时，其实只需要里面max Q使用更新的network， $Q\prime$ 使用DQN中的target network。而不需要再增加新的网络。

Dueling DQN

这个tip是改network的架构，
Dueling DQN
这样有时候直接改 $V (s)$ 的值，就可以改变整个 $Q$ ，为了使网络更倾向于改 $V$ 而不是 $A$ ，文章给 $A$ 加了一些限制，比如某状态下 $A$ 值之和为零。这点在实作时就是加上了一个Normalization。

Prioritized Reply

改变从经验池里的采样方式。比如TD-error比较大的transition要较大概率地被采样到。

Multi-step（Balance MC and TD）

在TD方法中，我们只需要存下transition $\left(s_{t}, a_{t}, r_{t}, s_{t+1}\right)$ ，现在可以改成记录n-step的transition，如 $\left(s_{t}, a_{t}, r_{t}, \cdots, s_{t+N}, a_{t+N}, r_{t+N}, S_{t+N+1}\right)$ ，这样网络更新的设计就变为：

Muiti-step

Noisy Net

Noise on Action (Epsilon Greedy)

就像上一节讲过的，在Action上加一个随机扰动。
$a=\left\{\begin{array}{cl} \arg \max _{a} Q(s, a), & \text { with probability } 1-\varepsilon \\ \text { random, } & \text { otherwise } \end{array}\right.$
这样给定同一个state，agent可能采用不同的action。

Noise on Parameters

$a=\arg \max _{a} \tilde{Q}(s, a)$
其中， $\tilde{Q}(s, a)$ 是用加噪声后的网络。
这种方法当遇到相同的state时，agent就会采取相同的action。（同一个episode，加的noise不变），称之为State-dependent Exploration。

Distributional Q-function

我们算的 $Q^\pi(s, a)$ 其实是一个分布的期望，但是不同的分布（可能相差很大）的期望可能相同，这样用期望可能会损失一些信息。Distributional Q-function输出的不再是期望，而直接是原始的分布。这样能看到更细节的信息，比如某个 $Q^\pi(s, a)$ 期望很大，方差也很大，表示采取这个行为平均收益较大，但也有很大的风险。

Q-Learning for Continuous Action

连续动作空间下不容易选出 $a=\arg \max Q(s, a)$ ，有以下几种思路：

采样法：

采样n个action，选出做大。这样不够精确。
利用梯度上升算法，parameter为a

运算量太大
重新构造网络使得

$a)=-(a-\mu(s))^{T} \Sigma(s)(a-\mu(s))+V(s)$
这样就能满足 $\mu(s)=\arg \max _{a} Q(s, a)$