Multi-Agent Game Abstraction via Graph Attention Neural Network
论文地址
代码地址
摘要
本文通过一个完整的图来建模智能体之间的关系,并创新性地提出一种基于两阶段注意力网络(G2ANet)的游戏抽象机制,表明两个智能体之间的交互以及交互的重要性。本文将这种检测机制集成到基于图神经网络的多智能体强化学习中,以进行游戏抽象(可以理解为为了提高智能体的性能,简化学习过程而提出的与多智能体系统结构等相关的先验知识),并提出了两种新的学习算法GA-Comm和GA-AC。
相关工作
大规模的智能体数量个复杂的智能体交互对策略的学习造成影响。因此,简化学习过程是一个重要的研究。早期的研究重要是松散多智能体系统的耦合,采用游戏抽象和知识转换来加速多智能体强化学习。然而,在大规模的智能体环境中,智能体往往不是独立的,通过松散耦合将单智能体的方法应用到多智能体系统中失效。
game abstract
游戏抽象的主要思想是将多智能体强化学习(马尔可夫博弈)模型简化为一个小游戏,从而降低求解(或学习)博弈均衡策略的复杂性。
soft- attention
soft-attention计算元素的重要性分布。它是完全可微的,因此能够实现end-to-end 反向传播训练。
hard-attention
hard- attention从所有元素中选择一个子集,迫使模型只能关注重要元素,完全忽略其他元素。
方法

如图所示,本文提出一种基于两阶段注意力网络的图网络结构来进行游戏抽象。hard-attention用来减少无关的边(无关的智能体信息),soft-attention用来学习重要的边(相关的智能体信息),然后使用图网络获得其他智能体的信息。最后,将获得的游戏抽象与强化学习算法结合。
G2ANet:将智能体之间的关系构建为图,每个智能体为一个节点,默认情况下,所有的节点成对连接。
agent-coordination-graph:智能体之间的关系构建为一个无相图: G = ( N , E ) G=(N,E) G=(N,E),又节点集合 N N N和边集合 E E E组成,是 N N N的无序元素对。每个节点代表智能体的入口(开始),边代表两个相邻智能体之间的关系。

之前的工作大部分采用soft-attention机制获得重要性分布,包括环境中的所有智能体(与当前智能体不相关的智能体),从而削弱了真正有作用的智能体的影响。因此,G2ANet中先用hard-attention去除不相关的智能体,在用soft-attention确定相关智能体的权重分布。
部分可观测环境中,在时间步 t t t,每个智能体 i i i获得一个局部观测
o i t o_i^t oit,它包含了智能体 i i i在图 G G G中的信息。通过MLP将局部观测 o i t o_i^t oit编码为一个特征向量 h i t h_i^t hit ,然后,通过特征向量 h i t h_i^t hit 学习智能体之间的关系。hard-attention会输出一个one-hot向量,我们可以得到节点 i i i和 j j j之间的边是否存在于图 G G G中,以及每个智能体需要与哪些智能体交互。通过这种方式,策略学习被简化为几个较小的问题,并且可以实现初步的游戏抽象。
此外,图 G G G中每条边的权重不同。我们通过soft-attention学习每条边的权重。这样,我们可以得到智能体 i i i的一个子图 G i G_i Gi,智能体 i i i仅仅与需要交互的智能体相连,边的权重代表关系的重要性。可以利用GNN获得子图 G i G_i Gi的向量表示,代表其他智能体的贡献。
具体的,图上图所示。对于智能体 i i i,通过hard-attention机制学习到一个hard权重 W h i , j W_h^{i,j} Whi,j,决定智能体 i , j i,j i,j之间是否需要交互。利用LSTM网络输出权重(0,1).对于智能体 i i i,我们将智能体 i , j i,j i,j的嵌入向量合并为特征 ( h i , h j ) (h_i,h_j) (hi,hj),并将特征输入到LSTM模型中,这里采用了 B i − L S T M Bi-LSTM Bi−L

本文介绍了一种新颖的图注意力网络(G2ANet)方法,用于建模智能体间复杂关系,通过两阶段注意力机制进行游戏抽象,简化多智能体强化学习中的策略学习。实验在交通灯和追捕环境中验证了其有效性。
最低0.47元/天 解锁文章
2168

被折叠的 条评论
为什么被折叠?



