深度Q学习的扩展与分布式实现
1. 深度Q网络的扩展——Rainbow
1.1 集成代理的性能
Rainbow将之前的所有改进整合到一个代理中,在当时著名的Atari 2600基准测试中取得了最先进的结果,这显示了将这些改进结合起来的重要性。自然会产生一个问题:每个单独的改进是否对结果有显著贡献?作者通过一些消融实验展示了结果来回答这个问题。
1.2 如何选择扩展——Rainbow的消融实验
Rainbow论文在各个扩展的重要性方面得出了以下结论:
| 扩展类型 | 重要性描述 |
| ---- | ---- |
| 优先回放和多步学习 | 对结果贡献最大的扩展。从Rainbow架构中移除这些扩展会导致性能大幅下降,表明其重要性。 |
| 分布式DQN | 是次重要的扩展,在训练后期尤为明显。 |
| 噪声网络 | 移除噪声网络会导致性能下降,但效果不如前面提到的其他扩展显著。 |
| 决斗架构和双Q学习 | 移除这两者对性能没有显著影响。 |
这些扩展的效果取决于具体问题,是否包含它们成为一个超参数。不过,这些结果表明,优先回放、多步学习和分布式DQN是训练强化学习代理时值得尝试的重要扩展。
1.3 “致命三角”问题
“致命三角”假设,当离线策略算法与函数逼近器和自举法结合时,训练很容易发散。然而,深度Q学习的相关工作却取得了巨大成功。Hasselt等人研究了这个问题,并支持以下假设:
- 当结合Q学习和传统的深度强化学习函数空间时,无界发散并不常见。
- 在单独的网络上进行自举时,发散会减少。DQN工作中引
超级会员免费看
订阅专栏 解锁全文
1492

被折叠的 条评论
为什么被折叠?



