Pommerman多智能体强化学习 Continual Match Based Training in Pommerman: Technical Report

本文介绍了在Pommerman比赛中采用的COMBAT训练架构,结合了持续学习思想和A2C智能体,通过种群模型和比赛排程器实现智能体的优化与淘汰。Pommerman环境提供了稀疏回报的挑战,文中探讨了解决稀疏回报的策略,如奖励塑造和课程学习。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文章地址: https://arxiv.org/pdf/1812.07297.pdf

​ Pommerman 是NeurIPS会议上开设的多智能体竞赛,将多智能体协作、非完全信息博弈以及持续学习等关键问题浓缩到炸弹人这款竞赛中,鼓励全世界优秀的研发人员一起参加解决技术挑战。

​ 本文是曾经在 The NeurIPS 2018 Pommerman Competition 中获得第一的团队发表的文章,主要介绍了一种基于连续匹配的的训练架构—— COnitnual Match BAsed Training (COMBAT) 。用持续学习(continual learning)的思想训练A2C智能体。

​ 先介绍一下 Pommerman 游戏环境,地图是11 * 11 的网格,有4个智能体分为位于四个角之一。每个回合,四个智能体可以执行以下六个动作之一:停止,向上,向下,向左,向右和放置炸弹。除代智能体以外,网格上的每个单元都可以是通道,木墙或刚性墙。 刚性墙和木墙都是无法通行的,而炸弹爆炸会破坏木墙。 木墙被摧毁后,有50%的空间成为通道,另外50%的空间由隐藏的道具组成。游戏中有三种道具:Extra Ammo,Extra Range和Can Kick,分别可以增加当前弹药、使其炸弹爆炸范围扩大一倍、使其踢出一枚炸弹。

​ 下图展示了COMBAT的架构。其中,种群模型(Population model) 存储了每一个群体的智能体的下标和参数;比赛排程器(Match Scheduler)会挑选出种群中的两个智能体,让它俩进行比赛,排出赛程;而比赛排程器排出来的那些赛程会在评估器(Evaluator)上异步地执行,也就是说&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值