Pommerman多智能体强化学习 Continual Match Based Training in Pommerman: Technical Report

最新推荐文章于 2025-05-03 21:14:19 发布

不一样的烟火___

最新推荐文章于 2025-05-03 21:14:19 发布

阅读量1.4k

点赞数

本文链接：https://blog.youkuaiyun.com/int1282951082/article/details/103192492

版权

本文介绍了在Pommerman比赛中采用的COMBAT训练架构，结合了持续学习思想和A2C智能体，通过种群模型和比赛排程器实现智能体的优化与淘汰。Pommerman环境提供了稀疏回报的挑战，文中探讨了解决稀疏回报的策略，如奖励塑造和课程学习。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章地址： https://arxiv.org/pdf/1812.07297.pdf

Pommerman 是NeurIPS会议上开设的多智能体竞赛，将多智能体协作、非完全信息博弈以及持续学习等关键问题浓缩到炸弹人这款竞赛中，鼓励全世界优秀的研发人员一起参加解决技术挑战。

本文是曾经在 The NeurIPS 2018 Pommerman Competition 中获得第一的团队发表的文章,主要介绍了一种基于连续匹配的的训练架构—— COnitnual Match BAsed Training (COMBAT) 。用持续学习（continual learning）的思想训练A2C智能体。

先介绍一下 Pommerman 游戏环境，地图是11 * 11 的网格，有4个智能体分为位于四个角之一。每个回合，四个智能体可以执行以下六个动作之一：停止，向上，向下，向左，向右和放置炸弹。除代智能体以外，网格上的每个单元都可以是通道，木墙或刚性墙。刚性墙和木墙都是无法通行的，而炸弹爆炸会破坏木墙。木墙被摧毁后，有50％的空间成为通道，另外50％的空间由隐藏的道具组成。游戏中有三种道具：Extra Ammo，Extra Range和Can Kick，分别可以增加当前弹药、使其炸弹爆炸范围扩大一倍、使其踢出一枚炸弹。

下图展示了COMBAT的架构。其中，种群模型（Population model）存储了每一个群体的智能体的下标和参数；比赛排程器（Match Scheduler）会挑选出种群中的两个智能体，让它俩进行比赛，排出赛程；而比赛排程器排出来的那些赛程会在评估器（Evaluator）上异步地执行，也就是说&#