dueling-dqn

在基于视觉感知的DRL任务中,不同状态动作对值函数不同,某些状态下值与动作无关。Wang等人提出竞争网络结构作为DQN网络模型,该结构将卷积层特征分流,能学到无动作影响下环境状态价值,训练中V(s)和A(a)关注不同内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在许多基于视觉的感知的DRL任务中,不同的状态动作对的值函数是不同的,但是在某些状态下,值函数的大小与动作无关。根据以上思想,Wang等人提出了一种竞争网络结构(dueling network)作为DQN的网络模型。

如上图所示,第一个模型是一般的DQN网络模型,即输入层接三个卷积层后,接两个全连接层,输出为每个动作的Q值。
而(第二个模型)竞争网络(dueling net)将卷积层提取的抽象特征分流到两个支路中。其中上路代表状态值函数 V(s),表示静态的状态环境本身具有的价值;下路代表依赖状态的动作优势函数 A(a) (advantage function),表示选择某个Action额外带来的价值。最后这两路再聚合再一起得到每个动作的Q值。

这种竞争结构能学到在没有动作的影响下环境状态的价值 V(s)。如下图,在训练过程中,上下两行图表示不同时刻,左右两列表示属于 V(s) 和 A(a),(通过某种方法处理后)图中红色区域代表 V(s) 和 A(a) 所关注的地方。V(s) 关注于地平线上是否有车辆出现(此时动作的选择影响不大)以及分数;A(a) 则更关心会立即造成碰撞的车辆,此时动作的选择很重要。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值