Nature DQN与Double DQN

最新推荐文章于 2024-08-02 14:03:27 发布

转载最新推荐文章于 2024-08-02 14:03:27 发布 · 958 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://bdqfork.cn/articles/49

本文介绍了DQN算法的两种改进版本：NatureDQN和DoubleDQN。NatureDQN通过引入目标网络提高收敛速度，而DoubleDQN则解决了Q-learning的过拟合问题，通过两个网络分别选择动作和计算目标值，避免了价值估计的过高。两者都在原DQN基础上进行了优化，提高了算法的稳定性和准确性。

在前面的文章强化学习DQN算法中，介绍了经典的DQN算法，然而DQN也存在一些问题。Nature DQN与Double DQN的提出就是为了解决这些问题，下面笔者将介绍这个两种改进的算法。

Nature DQN算法

Nature DQN的提出是为了提升原版DQN的收敛速度。在原版DQN中，计算目标Q值的公式

如下：

由于在计算目标值时，使用的是当前要训练的网络，而网络的更新使用的又是目标值，两者的相关性太强了，不利于收敛。

为了解决这个问题，Nature DQN提出了一个改进，使用两个网络来计算目标值。这两个网络的结构一样，但是参数不一样。其中一个网络被称为当前网络，主要用来选择动作，并更新模型参数。另一个网络被称为目标网络，仅仅用来计算目标值，它的参数是直接从当前网络复制而来，且目标网络的参数会比当前网络延迟。因此，新的计算目标值的公式如下：

除了目标值的计算不一样之外，其他的流程和原版DQN没什么区别。

Nature DQN算法流程

初始化一个存储容量为的记忆池，同时随机初始化一个当前网络，参数为，一个目标网络，参数为，并令。
按以下流程迭代轮。
1. 通过 -greedy算法根据状态从动作空间中得到动作，通过网络选择动作的公式如下。
2. 执行动作并观测环境，得到奖励以及图片。
3. 设置并对提取特征得到。
4. 将状态存储到记忆池中。
5. 随机从记忆池中选择一组的记忆，并根据以下公式计算收获：
6. 通过来计算损失，并通过梯度更新网络的参数。
7. 每隔个迭代，更新。
8. 初始化状态为第一个状态，并进行处理得到特征向量。
9. 按以下流程迭代轮。

Double DQN算法

Double DQN算法的提出是为了解决Q-learning，DQN包括Nature DQN的一个通病，即过拟合。过拟合发生的原因，是因为在更新值时，使用的是算法。以Nature DQN为例，目标值的计算公式如下：

由于每次估计下一个状态的值时都选择最大的，因此会导致高估的情况，不一定是最接近真实的值，对应的动作不一定是最佳的动作。如此，就会在每一次迭代中产生一些误差，这些误差不断累积，最终产生了过拟合。

为了解决这个问题，Double DQN提出两个网络解耦目标值动作的选择和目标值的计算这两步，并修改了值的计算方式。

Double DQN的两个网络和Nature DQN的一致，目标值的计算方式如下：

对于非终结状态的，值的计算可以分为一下两个步骤：

通过当前网络估计在状态下的最大的值对应的动作，用公式表示如下。
带入以下公式计算。

由于动作是由当前网络估计出的，在一定程度上，更接近最佳的动作，因此对应的值也会更接近真实值，从而避免了过高的估计。Double DQN的其他流程和Nature DQN没有什么太大的区别，就不过多介绍了。

关注【Java与Android技术栈】

更多精彩内容请关注扫码：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。