
RL Paper
文章平均质量分 93
强化学习相关论文
IT斜杆青年
想卷卷不动,想躺躺不平!
展开
-
Rainbow: 结合深度强化学习的改进
本文研究了DQN算法的六个扩展,并实证研究了它们的组合。我们的实验表明,在数据效率和最终性能方面,该组合在雅达利2600基准上提供了最先进的性能。我们还提供了详细的消融研究结果,该研究显示了每个部件对整体性能的贡献。原创 2022-11-10 16:23:29 · 1713 阅读 · 0 评论 -
一种简单的蒙特卡洛树搜索并行化方法
本文提出了 WU-UCT, 一种新颖的并行 MCTS 算法, 通过监控未观察样本的数量来解决并行化过程中统计数据过时的问题. 基于新设计的统计数据, 它有正确地修正了UCT节点选择策略, 实现了有效的探索和利用的权衡.原创 2022-10-29 11:03:49 · 3197 阅读 · 0 评论