DQN从入门到放弃

最新推荐文章于 2025-07-22 10:24:11 发布

如如有梦想

最新推荐文章于 2025-07-22 10:24:11 发布

阅读量1.1k

点赞数

传送门：https://zhuanlan.zhihu.com/p/21421729

0 前言

如果说DQN从入门到放弃的前四篇是开胃菜的话，那么本篇文章就是主菜了。所以，等吃完主菜再放弃吧！

1 详解Q-Learning

在上一篇文章DQN从入门到放弃第四篇中，我们分析了动态规划Dynamic Programming并且由此引出了Q-Learning算法。可能一些知友不是特别理解。那么这里我们再用简单的语言描述一下整个思路是什么。

为了得到最优策略Policy，我们考虑估算每一个状态下每一种选择的价值Value有多大。然后我们通过分析发现，每一个时间片的Q(s,a)和当前得到的Reward以及下一个时间片的Q(s,a)有关。有些知友想不通，在一个实验里，我们只可能知道当前的Q值，怎么知道下一个时刻的Q值呢？大家要记住这一点，Q-Learning建立在虚拟环境下无限次的实验。这意味着可以把上一次实验计算得到的Q值拿来使用呀。这样，不就可以根据当前的Reward及上一次实验中下一个时间片的Q值更新当前的Q值了吗？说起来真是很拗口。下面用比较形象的方法再具体分析一下Q-Learning。

Q-Learning的算法如下：

对于Q-Learning，首先就是要确定如何存储Q值，最简单的想法就是用矩阵，一个s一个a对应一个Q值，所以可以把Q值想象为一个很大的表格，横列代表s，纵列代表a，里面的数字代表Q值，如下表示：

这样大家就很清楚Q值是怎样的了。接下来就是看如何反复实验更新。

Step 1：初始化Q矩阵，比如都设置为0

Step 2：开始实验。根据当前Q矩阵及 $\epsilon-greedy$ 方法获取动作。比如当前处在状态s1，那么在s1一列每一个Q值都是0，那么这个时候随便选择都可以。

假设我们选择a2动作，然后得到的reward是1，并且进入到s3状态，接下来我们要根据

$Q(S_{t},A_{t}) \leftarrow Q(S_{t},A_{t})+\alpha({R_{t+1}+\lambda \max _aQ(S_{t+1},a)} - Q(S_t,A_t))$

来更新Q值，这里我们假设 $\alpha$ 是1， $\lambda$ 也等于1，也就是每一次都把目标Q值赋给Q。那么这里公式变成：

$Q(S_t,A_t) = R_{t+1} + \max_a Q(S_{t+1},a)$

所以在这里，就是

$Q(s_1,a_2) = 1 + \max_a Q(s_3,a)$

那么对应的s3状态，最大值是0，所以 Q(s_1,a_2) = 1 + 0 = 1 ,Q表格就变成：

Step 3：接下来就是进入下一次动作，这次的状态是s3，假设选择动作a3，然后得到1的reward，状态变成s1，那么我们同样进行更新：

$Q(s_3,a_3) = 2 + \max_a Q(s_1,a) = 2 + 1 = 3$

所以Q的表格就变成：

Step 4：反复上面的方法。

就是这样，Q值在试验的同时反复更新。直到收敛。

相信这次知友们可以很清楚Q-Learning的方法了。接下来，我们将Q-Learning拓展至DQN。

2 维度灾难

在上面的简单分析中，我们使用表格来表示Q(s,a)，但是这个在现实的很多问题上是几乎不可行的，因为状态实在是太多。使用表格的方式根本存不下。

举Atari为例子。

计算机玩Atari游戏的要求是输入原始图像数据，也就是210x160像素的图片，然后输出几个按键动作。总之就是和人类的要求一样，纯视觉输入，然后让计算机自己玩游戏。那么这种情况下，到底有多少种状态呢？有可能每一秒钟的状态都不一样。因为，从理论上看，如果每一个像素都有256种选择，那么就有：

$256^{210\times 160}$

这简直是天文数字。所以，我们是不可能通过表格来存储状态的。我们有必要对状态的维度进行压缩，解决办法就是价值函数近似Value Function Approximation

3 价值函数近似Value Function Approximation

什么是价值函数近似呢？说起来很简单，就是用一个函数来表示Q(s,a)。即

f可以是任意类型的函数，比如线性函数：

Q(s,a) = w_1s + w_2a + b 其中 w_1,w_2,b 是函数f的参数。

大家看到了没有，通过函数表示，我们就可以无所谓s到底是多大的维度，反正最后都通过矩阵运算降维输出为单值的Q。

这就是价值函数近似的基本思路。

如果我们就用来统一表示函数f的参数，那么就有

为什么叫近似，因为我们并不知道Q值的实际分布情况，本质上就是用一个函数来近似Q值的分布，所以，也可以说是

$Q(s,a)\approx f(s,a,w)$

4 高维状态输入，低维动作输出的表示问题

对于Atari游戏而言，这是一个高维状态输入（原始图像），低维动作输出（只有几个离散的动作，比如上下左右）。那么怎么来表示这个函数f呢？

难道把高维s和低维a加在一起作为输入吗？

必须承认这样也是可以的。但总感觉有点别扭。特别是，其实我们只需要对高维状态进行降维，而不需要对动作也进行降维处理。

那么，有什么更好的表示方法吗？

当然有，怎么做呢？

其实就是 $Q(s) \approx f(s,w)$ ，只把状态s作为输入，但是输出的时候输出每一个动作的Q值，也就是输出一个向量 [Q(s,a_1),Q(s,a_2),Q(s,a_3),...,Q(s,a_n)] ，记住这里输出是一个值，只不过是包含了所有动作的Q值的向量而已。这样我们就只要输入状态s，而且还同时可以得到所有的动作Q值，也将更方便的进行Q-Learning中动作的选择与Q值更新（这一点后面大家会理解）。