【论文研读】 The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
说明:
- 来源:36th Conference on Neural Information Processing Systems (NeurIPS 2022) Track on Datasets and Benchmarks. 是NIPS文章,质量有保障,放心食用。
- 第5章节, Factors Influential to PPO’s Performance,分析了各个参数对于多智能体系统的影响,其分析方法和消融实验的方法是值得学习的。
0. 摘要
PPO 属于 on-policy 的算法,所以被认为它的样本效率比较低。在多智能体的环境下,off-policy的策略被广泛使用。在这项工作中,我们仔细研究了PPO在合作多智能体设置下的性能。我们展示了基于ppo的多智能体算法在四种流行的多智能体测试平台(粒子世界环境、星际争霸多智能体挑战、Google Research Football和Hanabi挑战)中实现了惊人的强大性能,只需要最小的超参数调整,并且没有任何特定领域的算法修改或架构。重要的是,与竞争性的 off-policy 方法相比,PPO通常在最终回报和样本效率方面都具有竞争力或更好的结果。
1. Intro
我们进行了全面的实证研究,以检验PPO在四种流行的合作多智能体基准测试中的性能:多智能体粒子世界环境(MPE)[22]、星际争霸多智能体挑战(SMAC)[28]、谷歌研究足球(GRF)[19]和Hanabi挑战[3]。我们首先表明,与 off-policy 基线相比,PPO实现了强大的任务性能和具有竞争力的样本效率。
然后,我们确定了五个对PPO性能特别重要的实现因素和超参数,提供了关于

研究显示,尽管PPO原本被认为是样本效率较低的on-policy算法,但在合作多智能体环境中,经过适当的配置和少量超参数调整,PPO在多个流行基准中展现出与off-policy方法相当甚至更好的性能。作者揭示了影响PPO性能的关键因素,并提供优化建议。
最低0.47元/天 解锁文章
3456

被折叠的 条评论
为什么被折叠?



