文章地址: https://arxiv.org/pdf/1812.07297.pdf
Pommerman 是NeurIPS会议上开设的多智能体竞赛,将多智能体协作、非完全信息博弈以及持续学习等关键问题浓缩到炸弹人这款竞赛中,鼓励全世界优秀的研发人员一起参加解决技术挑战。
本文是曾经在 The NeurIPS 2018 Pommerman Competition 中获得第一的团队发表的文章,主要介绍了一种基于连续匹配的的训练架构—— COnitnual Match BAsed Training (COMBAT) 。用持续学习(continual learning)的思想训练A2C智能体。
先介绍一下 Pommerman 游戏环境,地图是11 * 11 的网格,有4个智能体分为位于四个角之一。每个回合,四个智能体可以执行以下六个动作之一:停止,向上,向下,向左,向右和放置炸弹。除代智能体以外,网格上的每个单元都可以是通道,木墙或刚性墙。 刚性墙和木墙都是无法通行的,而炸弹爆炸会破坏木墙。 木墙被摧毁后,有50%的空间成为通道,另外50%的空间由隐藏的道具组成。游戏中有三种道具:Extra Ammo,Extra Range和Can Kick,分别可以增加当前弹药、使其炸弹爆炸范围扩大一倍、使其踢出一枚炸弹。
下图展示了COMBAT的架构。其中,种群模型(Population model) 存储了每一个群体的智能体的下标和参数;比赛排程器(Match Scheduler)会挑选出种群中的两个智能体,让它俩进行比赛,排出赛程;而比赛排程器排出来的那些赛程会在评估器(Evaluator)上异步地执行,也就是说&#