在许多基于视觉的感知的DRL任务中,不同的状态动作对的值函数是不同的,但是在某些状态下,值函数的大小与动作无关。根据以上思想,Wang等人提出了一种竞争网络结构(dueling network)作为DQN的网络模型。
如上图所示,第一个模型是一般的DQN网络模型,即输入层接三个卷积层后,接两个全连接层,输出为每个动作的Q值。
而(第二个模型)竞争网络(dueling net)将卷积层提取的抽象特征分流到两个支路中。其中上路代表状态值函数 V(s),表示静态的状态环境本身具有的价值;下路代表依赖状态的动作优势函数 A(a) (advantage function),表示选择某个Action额外带来的价值。最后这两路再聚合再一起得到每个动作的Q值。
这种竞争结构能学到在没有动作的影响下环境状态的价值 V(s)。如下图,在训练过程中,上下两行图表示不同时刻,左右两列表示属于 V(s) 和 A(a),(通过某种方法处理后)图中红色区域代表 V(s) 和 A(a) 所关注的地方。V(s) 关注于地平线上是否有车辆出现(此时动作的选择影响不大)以及分数;A(a) 则更关心会立即造成碰撞的车辆,此时动作的选择很重要。