强化学习DDQN与DQN深度解析

目录

一、引言

二、q-learning

三、DQN

3.1 DQN具体组成

3.2 DQN工作流程

3.3 概念疑问

3.4 网络运行示例

四、DDQN

参考文章:


一、引言

本文将并以DQN为主,依次介绍三大经典强化学习算法——Q-learning、DQN与DDQN,按网络实际运行流程,剖析其实现细节。

个人理解,学习记录,如有侵权,联系删除。

二、q-learning

强化学习在于环境交互中需要存储状态、动作到Q表中,

缺点:在现实世界中,状态的数量可能是巨大的,因此使得构建一个表在计算上很难。

因此,用函数代替q表,即得到Q-learning算法

三、DQN

q-learning的缺点:函数单一,难以描述复杂的真实场景

神经网络是最佳函数逼近器,其对复杂函数的建模能力很强,所以我们可以使用一个神经网络,即深度Q网络来估计这个Q函数。

3.1 DQN具体组成

如果状态可以通过一组数字变量表示,则可以使用两个隐藏层组成网络。如果状态数据以图像或文本形式表示,则可以使用常规的CNN或RNN体系结构。

3.2 DQN工作流程

下图表示了DQN网络的数据存放与取出、样本放入两个Q网络、损失函数、训练、参数复制、存储经验的流程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值