多智能体强化学习-G2ANet

最新推荐文章于 2025-10-10 22:31:16 发布

原创

最新推荐文章于 2025-10-10 22:31:16 发布 · 2.5k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #算法

本文介绍了一种新颖的图注意力网络（G2ANet）方法，用于建模智能体间复杂关系，通过两阶段注意力机制进行游戏抽象，简化多智能体强化学习中的策略学习。实验在交通灯和追捕环境中验证了其有效性。

Multi-Agent Game Abstraction via Graph Attention Neural Network

摘要

本文通过一个完整的图来建模智能体之间的关系，并创新性地提出一种基于两阶段注意力网络（G2ANet）的游戏抽象机制，表明两个智能体之间的交互以及交互的重要性。本文将这种检测机制集成到基于图神经网络的多智能体强化学习中，以进行游戏抽象（可以理解为为了提高智能体的性能，简化学习过程而提出的与多智能体系统结构等相关的先验知识），并提出了两种新的学习算法GA-Comm和GA-AC。

方法

在这里插入图片描述
如图所示，本文提出一种基于两阶段注意力网络的图网络结构来进行游戏抽象。hard-attention用来减少无关的边（无关的智能体信息），soft-attention用来学习重要的边（相关的智能体信息），然后使用图网络获得其他智能体的信息。最后，将获得的游戏抽象与强化学习算法结合。
G2ANet：将智能体之间的关系构建为图，每个智能体为一个节点，默认情况下，所有的节点成对连接。
agent-coordination-graph：智能体之间的关系构建为一个无相图： $G = (N, E)$ ，又节点集合 $N$ 和边集合 $E$ 组成，是 $N$ 的无序元素对。每个节点代表智能体的入口（开始），边代表两个相邻智能体之间的关系。
在这里插入图片描述
之前的工作大部分采用soft-attention机制获得重要性分布，包括环境中的所有智能体（与当前智能体不相关的智能体），从而削弱了真正有作用的智能体的影响。因此，G2ANet中先用hard-attention去除不相关的智能体，在用soft-attention确定相关智能体的权重分布。
部分可观测环境中，在时间步 $t$ ，每个智能体 $i$ 获得一个局部观测
$o_i^t$ ，它包含了智能体 $i$ 在图 $G$ 中的信息。通过MLP将局部观测 $o_i^t$ 编码为一个特征向量 $h_i^t$ ，然后，通过特征向量 $h_i^t$ 学习智能体之间的关系。hard-attention会输出一个one-hot向量，我们可以得到节点 $i$ 和 $j$ 之间的边是否存在于图 $G$ 中，以及每个智能体需要与哪些智能体交互。通过这种方式，策略学习被简化为几个较小的问题，并且可以实现初步的游戏抽象。
此外，图 $G$ 中每条边的权重不同。我们通过soft-attention学习每条边的权重。这样，我们可以得到智能体 $i$ 的一个子图 $G_i$ ，智能体 $i$ 仅仅与需要交互的智能体相连，边的权重代表关系的重要性。可以利用GNN获得子图 $G_i$ 的向量表示，代表其他智能体的贡献。
具体的，图上图所示。对于智能体 $i$ ,通过hard-attention机制学习到一个hard权重 $W_h^{i,j}$ ，决定智能体 $i, j$ 之间是否需要交互。利用LSTM网络输出权重（0，1）.对于智能体 $i$ ，我们将智能体 $i ， j$ 的嵌入向量合并为特征 $h_i,h_j)$ ，并将特征输入到LSTM模型中，这里采用了 $B i - L$