Mean Field Multi-Agent Reinforcement Learning

最新推荐文章于 2025-10-30 15:59:01 发布

原创最新推荐文章于 2025-10-30 15:59:01 发布 · 7.1k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

MARL 专栏收录该内容

4 篇文章

订阅专栏

本文深入探讨了大规模多智能体系统中的MFQ与MFAC算法，详细解析了算法如何通过MeanFieldApproximation降低计算复杂度，实现高效的学习与策略更新。文中还对比了Nash平衡与MFQ算法的收敛特性。

这是18 ICML的文章，文中的证明推理很多，主要借鉴一下思想。

文章首先阐述了以前的一些找Nash平衡等方法对于大规模agent合作或者对抗的计算量要求很大。因此提出了这个算法。

首先介绍了Stochastic Game的环境：

第一个参数是状态空间，随后的N个参数是agent i的动作空间，在随后是agent i 的奖励函数，p是转移函数，y是折扣因子

每个agent j 根据自己的策略选择动作，其中是agent j 在动作空间上的概率分布。

表示joint policy，在这个joint policy下，agent j 的 value function可以写成：

agent j 的Q function可以写成：

所以value function又可以被Q表示为

随后是Nash Q-learning

每个agent的目标学习一个最优的策略去maximize他们的value function，对于agent j 取最优的policy 取决于 joint policy。

因此在Stochastic game 中Nash 平衡被描述为：

在Nash平衡中每个agent把自己最好的respones反馈给其他的agent，因此给出了一个Nash policy 的value function

因此此时我们可以使用Nash value function重写Q function：

其中，

随后开始介绍Mean Field MARL：

首先为了解决所有的agent不能都同时策略的进行行为并同时更新标准Q function这一问题。

我们重构了Q function：

是 j 附近的agent。这里不同的N（j）要根据不同的环境，有区别的取设置

这样就有效的降低了整体的复杂度。

随后是Mean Field Approximation：（这一阶比较趋紧与证明）

我们根据1971年提出的mean field theory可以用于拟合

这里我们考虑离散的动作空间，同时我们把agent j 的aj使用one hot 编码：，随后我们根据agent j的邻居agents计算 mean action 平均动作，随后我们把每个邻居agent k的的one hot action ak全部用与的加和表示：

其中，可以被解释为agent j的附近agents动作的经验分布。

随后是对Qj的推到：

最后的结论很重要也就是最后近似等于。

我们可以看下面这个图来近似：

此时Q函数的更新函数可以写为：

此时agent j的mean field 的value function 可以写成：

接着我们给出了计算每个agent j 的最好策略的迭代过程，其中mean action ：

，eq（11）随后policy 根据mean action更改：

eq（12）

为了区分与Nash平衡，我们标记mean field，Q function：

。随后开始证明mean field会像Nash 平衡一样收敛

MFQ:

loss function :

也就是说yj是Q target计算出来的，是Q est计算出来的

伪代码：

MFAC:

他的所有实验都是共享网络的，也就是一个Target Net 一个Est Net，然后每个agent之间唯一的不同点就是mean action的影响，不然只要这个agent在这个位置，那么他就会做出确定的动作，而不会考取其他agent的动作。

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。