2020ICML多智能体强化学习论文简介

最新推荐文章于 2025-12-02 23:50:29 发布

原创

最新推荐文章于 2025-12-02 23:50:29 发布 · 3.4k 阅读

26 ·

CC 4.0 BY-SA版权

本文为博主原创文章，转载请声明作者rockray21。如有问题，欢迎指正。

文章标签：

#强化学习

这篇博客是对ICML 2020会议上多智能体强化学习论文的总结。涵盖了从延迟通信的协同学习、重尾随机bandit问题的鲁棒决策，到行列式Q学习、信息瓶颈通信方法，再到角色强化学习、分层智能体架构等多个方面。文章讨论了如何通过优化合作、解决通信限制、角色涌现和泛化能力提升等方面来改进多智能体强化学习的性能，并提供了在不同场景下的应用实例和实验结果。

如有错误，欢迎指正

本篇为自我学习过程中的要点记录，仅作学习使用。
所引用内容的链接将全部粘贴于下方，如有侵权，请与本人联系。

所引用内容链接

感谢这篇汇总
ICML2020 180篇强化学习论文汇总: https://zhuanlan.zhihu.com/p/147774833?utm_source=ZHShareTargetIDMore.

Multi-Agent RL

1. Kernel Methods for Cooperative Multi-Agent Learning with Delays

Abhimanyu Dubey (Massachusetts Institute of Technology) · Alex `Sandy’ Pentland (MIT)

多智能体协同决策是指在网络上进行具有时延的通信时，一群智能体协同解决学习问题。本文考虑了kernelised contextual bandit问题。¹其中一个agent获得的奖赏是相关再生核Hilbert空间（RKHS）中上下文图像的任意线性函数，并且一组agent必须合作来共同解决其唯一的决策问题。对于这个问题，我们提出了extsc{Coop KernelUCB}，这是一个在每个agent regret上提供近似最优边界的算法，在计算和通信方面都是有效的。对于合作问题的特殊情况，我们还提供了extsc{Coop KernelUCB}的变体，它提供了每个agent的最优regret。此外，我们的算法推广了多agent bandit环境下已有的一些结果。最后，在一系列综合的和真实的多智能体网络基准测试中，我们证明了我们的算法明显优于现有的基准测试。

2. Robust Multi-Agent Decision-Making with Heavy-Tailed Payoffs

Abhimanyu Dubey (Massachusetts Institute of Technology) · Alex `Sandy’ Pentland (MIT)

研究了多智能体协作环境下的重尾随机bandit问题，其中一组agent与一个共同的bandit问题相互作用，同时在网络上进行有时延的通信。现有的随机bandit算法利用基于平均的通信协议产生的置信区间，该协议不适合重尾设置的鲁棒估计。我们提出了一个分散的多智能体算法来解决协作随机bandit问题，它将鲁棒估计与消息传递协议结合起来。我们证明了在多个问题设置下的最优regret界，并证明了它比现有方法的优越性。此外，我们建立了合作bandit问题的第一下界，并提供了鲁棒bandit位置估计的有效算法。

3. Multi-Agent Determinantal Q-Learning

Yaodong Yang (Huawei Technology R&D UK) · Ying Wen (UCL) · Jun Wang (UCL) · Liheng Chen (Shanghai Jiao Tong University) · Kun Shao (Huawei Noah’s Ark Lab) · David Mguni (Noah’s Ark Laboratory, Huawei) · Weinan Zhang (Shanghai Jiao Tong University)

分散执行的集中式训练已成为多智能体学习的一种重要范式。目前的方法虽然实用，但是依赖于限制性的假设来分解agent之间的集中的值函数以供执行。本文通过提出多智能体行列式Q学习来消除这种限制。我们的方法建立在Q-DPP上，它是行列式点过程（DPP）在多智能体环境下的推广。Q-DPP促进了agent获得不同的行为模型；这使得联合Q函数可以自然分解，而不需要对值函数或特殊的网络结构进行结构约束。我们证明了Q-DPP在可分散协作任务上推广了包括VDN、QMIX和QTRAN在内的主要解决方案。为了有效地从Q-DPP中提取样品，我们采用了一个线性时间取样器，并保证了理论近似性。我们的采样器也有利于通过协调agent在训练期间覆盖状态空间中的正交方向进行探索。我们对我们的算法在各种协作基准上进行了评估，并与最新的算法进行了比较，证明了算法的有效性。

4. Learning Efficient Multi-agent Communication: An Information Bottleneck Approach

Rundong Wang (Nanyang Technological University) · Xu He (Nanyang Technological University) · Runsheng Yu (Nanyang Technological University) · Wei Qiu (Nanyang Technol