Dueling DQN

论文链接:https://arxiv.org/pdf/1511.06581.pdf

Dueling DQN 使用了一种新的神经网络结构。Dueling 网络有两个独立的估计量:

  1. 状态值函数的估计量
  2. 依赖状态的动作优势函数的估计量

这种分解的主要好处是在不改变底层强化学习算法的情况下,将学习泛化到多个动作。

在这里插入图片描述

定义了新的优势函数
在这里插入图片描述
值函数 V 衡量的是特定状态 s 有多好,动作值函数 Q 衡量的是在这个状态下选择某一动作的值。优势函数是 Q 减去 V 的值,得到的是每个动作重要性的相对度量。

上图给出了 Dueling 网络的结构,可见,最后的全连接层是有两个分支组成(一支输出标量的 V 值,另一支输出向量 A),最后的输出是两者的相加。使用优势函数的定义,可以得到 Q 值的表示方式:

在这里插入图片描述

由于给定一个Q,无法给出一个唯一的 V 和 A 。强制使得优势函数估计器在选择的动作上具有零优势,公式修改为:
在这里插入图片描述

另外,可以使用均值替代 max 操作:

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值