多智能体强化学习(五)MARL的挑战

与单智能体RL相比,多智能体RL是一个更好地匹配现实世界人工智能应用的广泛范围的通用框架。然而,由于存在多个同时学习的代理,除了在单代理RL中已经存在的智能体外,MARL方法还提出了更多的理论挑战。与通常有两个智能体的经典地图设置相比,解决一个多智能体RL问题更具挑战性。事实上,①组合的复杂性,②多维度学习对象,③非平稳性的问题都导致了大多数MARL算法能够解决④只有两个玩家的游戏,特别是双人零和游戏。在本部分中,我将详细阐述多智能体RL中的每一个重大挑战

1.组合中的复杂性

在多智能体学习的背景下,每个智能体在确定最佳响应时必须考虑其他对手的动作;这一特征深深植根于每个智能体的奖励函数。联合作用空间的大小|A|N随着代理的数量呈指数级增长,因此在很大程度上限制了MARL方法的可伸缩性。此外,由于在博弈论中求解一个NE是很难的,即使是对于两人的博弈,也加剧了组合复杂度的复杂性。因此,对于多人一般和游戏(既不是团队游戏,也不是零和游戏),找到一个适用的解决方案概念是不容易的。

解决这个问题的一个常见方法是假设动作依赖性的特定分解结构,这样奖励函数或q函数就可以显著简化。例如,图形游戏假设智能体的奖励只受其邻近智能体的影响,如图(Kearns,2007)所定义。这一假设直接导致了在特定树状图中计算NE的多项式时间解(Kearns等人,2013),尽管应用的范围在这个特定场景之外有所限制。

最近在利用特定的神经网络架构进行Q-函数分解方面也取得了进展(Rashid等人,2018;Sunehag等人,2018;Yang等人,2020)。除了这些方法只适用于团队游戏

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值