dueling-dqn

最新推荐文章于 2025-07-22 15:43:53 发布

原创最新推荐文章于 2025-07-22 15:43:53 发布 · 838 阅读

1 ·

CC 4.0 BY-SA版权

强化学习专栏收录该内容

12 篇文章

订阅专栏

在基于视觉感知的DRL任务中，不同状态动作对值函数不同，某些状态下值与动作无关。Wang等人提出竞争网络结构作为DQN网络模型，该结构将卷积层特征分流，能学到无动作影响下环境状态价值，训练中V(s)和A(a)关注不同内容。

部署运行你感兴趣的模型镜像

在许多基于视觉的感知的DRL任务中，不同的状态动作对的值函数是不同的，但是在某些状态下，值函数的大小与动作无关。根据以上思想，Wang等人提出了一种竞争网络结构（dueling network）作为DQN的网络模型。

如上图所示，第一个模型是一般的DQN网络模型，即输入层接三个卷积层后，接两个全连接层，输出为每个动作的Q值。
而（第二个模型）竞争网络（dueling net）将卷积层提取的抽象特征分流到两个支路中。其中上路代表状态值函数 V(s)，表示静态的状态环境本身具有的价值；下路代表依赖状态的动作优势函数 A(a) （advantage function），表示选择某个Action额外带来的价值。最后这两路再聚合再一起得到每个动作的Q值。

这种竞争结构能学到在没有动作的影响下环境状态的价值 V(s)。如下图，在训练过程中，上下两行图表示不同时刻，左右两列表示属于 V(s) 和 A(a)，（通过某种方法处理后）图中红色区域代表 V(s) 和 A(a) 所关注的地方。V(s) 关注于地平线上是否有车辆出现（此时动作的选择影响不大）以及分数；A(a) 则更关心会立即造成碰撞的车辆，此时动作的选择很重要。

您可能感兴趣的与本文相关的镜像