多智能体强化学习-DGN

本文提出了一种名为DGN的图卷积强化学习方法,用于解决多智能体在部分可观测环境下的合作问题。DGN通过图卷积网络捕捉智能体之间的交互关系,利用多头注意力机制抽象关系表示,通过时间关系正则化促进一致的合作策略。DGN在深度Q网络上实例化,允许智能体通过动态图进行通信,提高了合作效率。实验表明,DGN在多种环境中表现出优越的合作性能。

DGN: Graph Convolutional Reinforencement Learning

论文地址

代码地址

代码(修正)

摘要

论文主要讨论协作的多智能体在部分可观测的场景下通过通信来最大化多智能体系统共同的效用函数。
在多智能体环境中学习合作是很重要的,合作的关键是理解智能体之间的交互。但是,多智能体环境是高度动态的,智能体不断运动,而他们的邻居不断变化,这使得很难学习智能体之间交互的抽象表示。本文提出图卷积强化学习解决该问题。图卷积适用于多智能体环境的基础图的动态,关系内核通过智能体之间的关系表示来捕捉他们之间的交互。利用逐渐增加的感受野中卷积层产生的潜在特征来学习合作,并通过时间关系正则化进一步改善合作以实现一致性。

Introduction

DGN将多智能体环境建模为图。 每个智能体都是一个节点,智能体的局部观察编码是节点的特征,节点和它的每个邻居之间都有一条边。采用多头注意力作为卷积核,图卷积能够提取节点之间的关系表示,并像卷积神经网络 (CNN) 中的神经元一样对来自相邻节点的特征进行卷积。 从逐渐增加的感受野中提取的潜在特征被用于学习合作策略。 此外,关系表示在时间上进行正则化以帮助智能体制定一致的合作策略。DGN,是基于深度Q网络进行实例化,并进行端到端的训练。 DGN 在所有智能体之间共享权重,易于扩展。 DGN 通过关系核抽象智能体之间的相互作用,通过卷积提取潜在特征,并通过时间关系正则化诱导一致的合作。
图卷积极大地增强了代理之间的合作。 与其他参数共享方法不同,图卷积允许通过联合考虑智能体接受域中的其他智能体来优化策略,促进互助。 独立于特征输入顺序的关系内核可以有效地捕捉智能体之间的相互作用和抽象关系表示,从而进一步提高合作。 时间正则化可以最小化连续时间步中关系表示的 KL 散度,促进合作,帮助智能体在具有许多移动智能体的高度动态环境中形成长期一致的策略。

相关工作

MARL: MADDPG和 COMA 分别是局部奖励和共享奖励设置的actor-critic模型,集中式的critic 将所有智能体的观察和动作作为输入,这使得它们难以扩大规模。 PS-TRPO 通过共享策略参数解决了大多数 MARL 算法以前认为难以解决的问题,这也改善了多智能体合作。但是,如果代理之间不共享信息,合作仍然是有限的。 (Zhang et al., 2018) 考虑了智能体之间价值函数的共享参数,并为线性函数逼近提供了收敛保证。然而,所提出的算法及其收敛性仅在完全可观察的环境中建立。值传播使用 softmax 时间一致性来连接值网络和策略网络更新。但是,此方法仅适用于智能体之间静态连接。CommNet 和 BiCNet 在智能体之间交流本地观察的编码。 ATOC 和 TarMAC 使代理能够分别使用注意力机制学习何时通信以及向谁发送消息。这些沟通模式证明沟通确实有助于合作。然而,充分的沟通成本高、效率低,而有限的沟通可能会限制合作的范围。
Graph Convolution and Relation.
图卷积网络(GCN)将特征矩阵作为输入,该矩阵总结了每个节点的属性,并输出节点级特征矩阵。 该功能类似于 CNN 中的卷积操作,其中内核在输入的局部区域中进行卷积以生成特征图。 使用 GCN,交互网络可以推理复杂系统中的对象、关系和物理,这对于 CNN 来说很困难。 已经提出了一些交互框架来预测未来状态和潜在属性,例如 IN (Battaglia et al., 2016)、VIN (Watters et al., 2017) 和 VAIN (Hoshen, 2017)。关系强化学习 (RRL) 将多头点积注意力作为关系块嵌入到神经网络中,以学习智能体状态下一组实体的成对交互表示 ,帮助智能体解决具有复杂逻辑的任务。 关系前向模型 (RFM) 使用监督学习来预测基于全局状态的所有其他智能体的动作。 然而,在部分可观察的环境中,RFM 很难仅通过局部观察来学习做出准确的预测。MAGnet(Malysheva et al.,2018)以关联图的形式学习关联信息,其中关系权重是通过基于启发式规则的预定义损失函数学习的,而DGN中的关系权重是直接通过端到端最小化值函数的时差误差来学习的。Agarwal et al. (2019) 利用注意力机制进行交流,提出了可转移合作的课程学习。 然而,这两种方法都需要对环境中的对象进行显式标记,这在许多实际应用中是不可行的。

方法

1.将多智能体环境构建为一个图,智能体由环境中的节点 i i i表示,每个节点有一组邻居 B i B_i Bi,由距离或者其他指标确定,具体取决于环境,并且随时间变化( i i i的通信范围或者局部观察)。相邻节点之间可以相互通信,此外,在许多多智能体环境中,将所有其他智能体考虑在内可能成本高昂且帮助较小,因为接收大量信息需要高带宽并导致计算复杂度高,并且智能体无法区分有价值的信息和全局共享的信息 。
2.(智能体的感受野就是它在该卷积层感知到的其他智能体)随着卷积层的增加,智能体的感受野逐渐增加,所以合作范围不受限制。所以,仅考虑邻居是有效且高效的。
3. 与GCN的静态图不同,多智能体环境图是动态的,随着智能体移动或进入\离开,环境随时间不断变化。

3.1 图卷积

该问题建模为POMDP,在时间步 t t t,每个智能体 i i i接受本地观测 o i t o_i^t oit,这是图中节点 i i i的属性,采取动作 a i t a_i^t ait,获得个体奖励 r i t r_i^t rit,目标是最大化所有智能体的期望收益之和。DGN由三类模块组成:观测编码器、卷积层和Q网络。
DGN由三类模块组成:观测编码器、卷积层和Q网络观测编码器:局部观测 o i t o_i^t oit通过全连接网络MLP或者CNN编码为一个特征向量 h i t h_i^t hit卷积层整合了局部区域的特征向量(包括节点 i i i和邻居

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值