MAPEL: Multi-Agent Pursuer-Evader Learning using Situation Report
论文:MAPEL: Multi-Agent Pursuer-Evader Learning using Situation Report
项目地址:MAPEL: Multi-Agent Pursuer-Evader Learning using Situation Report
摘要
在疆土防御游戏中,包括追捕者,逃跑者以及守卫目标。追捕者的任务是在逃跑者到达目标之前抓住逃跑者,逃跑者的任务是到达目标。设定所有智能体的感知范围有限,只能在各自的观测空间内相互探测。本文专注于多智能体之间的合作,提出了一种利用时空图(spatio-temporal graph)表示学习结构化合作的多智能体追捕-逃避学习算法(MAPEL:Multi-Agent Pursuer-Evader Learning )算法的关键是学习以分散/去中心化的方式进行,智能体使用态势报告(situation report)更新从彼此的局部观察中了解整个环境。在MAPEL中,一个智能体只有在对手或目标进入其观察空间时,才会使用态势报告更新所有智能体。
Introduction
在多智能体系统中,所有智能体共享一个环境。智能体之间相互合作或者彼此独立完成一个联合目标。多智能体追捕-逃避任务的复杂性来自于多个方面:环境类型,智能体的观测,动作,合作策略和奖励设定,由于动态性和复杂性,追捕-逃避问题解决具有挑战性。一些学者做出了研究,一种方法是对智能体运动的随机建模。本文研究了利用结构化消息传递进行写作的智能体的局部观察问题。
本文提出了一个零和博弈基础上的追捕-逃避问题,两方智能体数量相等。假设环境部分可观测,保证在实际中可用。然而,随着智能体和环境之间的复杂交互作用,局部观测下的学习变得困难。一些学者使用强化学习来解决追捕-逃避问题,但是大部分采用的都是全局可观测。本文提出一种利用时空图在局部可观测下实现智能体之间结构化合作的深度强化学习算法。MAPEL算法采用一种态势报告的抽象信息,它可以在智能体之间共享以实现合作。本文提出了两种基于密集通信和稀疏通信的态势报告更新方法。在游戏设定中,追捕者和逃跑者有着相同的速度。
相关工作
多智能体强化学习(MARL)由一组共享一个共同环境的智能体组成。由于智能体和环境之间会产生交互,因此在这样的框架下学习是困难的。传统的分布式/去中心化的强化学习方法,例如Q-learning,假设其他智能体是环境的不部分。这种设定在多智能体环境下不适用,无法保证收敛,同时环境不稳定,导致学习不稳定。
- 联合行动学习(joint action learning)或者集中策略学习是多智能体强化学习的一种方法。
- 分散学习需要不同智能体之间的有效合作。
- 一些多智能体问题可以用图来明确描述。
问题描述
本文将多智能体追捕-逃避问题建模为一个M*N维的网格世界,障碍物随机放置(服从 N \mathcal{N} N(0, δ \delta δ)。设定有 P \mathbf{P} P个追捕者, E \mathbf{E} E个逃跑者,一个目标 T \mathbf{T} T。在任意时刻 t t t内,追捕者 p ∈ P p\in\mathbf{P} p∈P能够获得其他所有追捕者的全局信息以及目标的位

本文提出了MAPEL,一种在局部可观测环境下,利用时空图和态势报告实现多智能体合作的深度强化学习算法。在追捕-逃避游戏中,智能体通过点对点或环形态势报告更新来共享信息,实现合作。该算法解决了在动态环境中,由于部分可观测性带来的学习挑战。实验表明,通过态势报告,智能体能更有效地协作完成任务。
最低0.47元/天 解锁文章
25





