An Algorithm for Distributed Reinforement Learning in Cooperative Multi-Agent Systems

最新推荐文章于 2024-03-30 21:55:18 发布

原创最新推荐文章于 2024-03-30 21:55:18 发布 · 964 阅读

2 ·

CC 4.0 BY-SA版权

MARL 专栏收录该内容

4 篇文章

订阅专栏

本文探讨了多智能体强化学习(Multi-Agent Reinforcement Learning, MAMDP)在确定性和随机性环境下的应用，特别是在合作型游戏中的策略优化。文章对比了cooperative MAMDP与SAMDP的区别，提出了在没有额外信息交换的条件下，如何让多个智能体达成最优策略的挑战与解决方案。

这篇文章是2000年发在ICML上的（如果我没记错的话），本篇博客主要是记录读后的总结，因为信息量比较大，只是混杂。

区分两个概念：deterministic enviroment and stochastic enviroment:

摘一段原文：

随即环境下的区别是没有成熟的转移函数，所有的状态转移全都是互相独立运行的。

在deterministic enviroment下：Q表的更新公式如下：

在stochastic enviroment下：Q表的更新公式如下：

这里我们看到固定环境下，有函数，也就是能转移到下一个状态，直接拿着下一个状态的最大的Q值就可以。而下面的公式因为没有成熟的转移函数，也就是不知道当前状态下，采用这个动作集合，不能确定转移的状态，那么就需要将能转移到的所有可能的状态全部考虑进去，来代表下一个状态的值。

此论文讨论的是一些游戏的特殊情况，一种是zero-sum的游戏，两个agent互相竞争，Reward函数完全相反。另一种是合作形的游戏，使用的是相同的reward函数。此论文主要讨论后者。

再次再次区分一下general MAMDP和cooperative MAMDP这两种，general主要是每个agent都有一个自己的reward函数，它的特点是，没有办法找到最优解，相反需要寻找一个平衡点，也就是（如果其他agent的策略已经固定，那么此agent无法再得到更好的reward）。相反cooperative对所有的agents使用相同的reward函数，在这种框架下，可以找到平衡点，也可以找到最优点（maximal discounted reward）。

文章解释了为什么不能把cooperative MAMDP堪称SAMDP（一个agent代表全队），cooperative MAMDP是所有的agent的同时做出决策，而SAMDP只有一个agent可以决定最后的policy

文章提出了两种情况：第一种是：每个agent的action互相都知道，另一种是：每个agent只知道他们自己的action，前者被叫做joint action learners（JAR），第二种是independent learners。本文假设在这两种情况下，所有的agent都知道当前的state以及不同转移的reward

本文主要阐述的是在agents之间没有附加信息或者通信的cooperative MAMDP ，这里主要有两个难点，一是：agent必须学会哪个策略是最优的，二是，如果多个最优策略摆在面前，agent需要同意意见得到一个policy用于整个team