强化学习最新论文汇总
- 如有错误,欢迎指正
- Multi-Agent RL
-
- 1. Kernel Methods for Cooperative Multi-Agent Learning with Delays
- 2. Robust Multi-Agent Decision-Making with Heavy-Tailed Payoffs
- 3. Multi-Agent Determinantal Q-Learning
- 4. Learning Efficient Multi-agent Communication: An Information Bottleneck Approach
- 5. Optimizing Multiagent Cooperation via Policy Evolution and Shared Experiences
- 6. ROMA: Multi-Agent Reinforcement Learning with Emergent Roles
- 7. OPtions as REsponses: Grounding behavioural hierarchies in multi-agent reinforcement learning
- 8. Multi-Agent Routing Value Iteration Network
- 9. Q-value Path Decomposition for Deep Multiagent Reinforcement Learning
- 10. Finite-Time Last-Iterate Convergence for Multi-Agent Learning in Games
- 11. “Other-Play” for Zero-Shot Coordination
- 12. Asynchronous Coagent Networks
- 13. Extra-gradient with player sampling for faster convergence in n-player games
- 14. Optimally Solving Two-Agent Decentralized POMDPs Under One-Sided Information Sharing
- 总结
如有错误,欢迎指正
本篇为自我学习过程中的要点记录,仅作学习使用。
所引用内容的链接将全部粘贴于下方,如有侵权,请与本人联系。
所引用内容链接
感谢这篇汇总
ICML2020 180篇强化学习论文汇总: https://zhuanlan.zhihu.com/p/147774833?utm_source=ZHShareTargetIDMore.
Multi-Agent RL
1. Kernel Methods for Cooperative Multi-Agent Learning with Delays
Abhimanyu Dubey (Massachusetts Institute of Technology) · Alex `Sandy’ Pentland (MIT)
多智能体协同决策是指在网络上进行具有时延的通信时,一群智能体协同解决学习问题。本文考虑了kernelised contextual bandit问题。1其中一个agent获得的奖赏是相关再生核Hilbert空间(RKHS)中上下文图像的任意线性函数,并且一组agent必须合作来共同解决其唯一的决策问题。对于这个问题,我们提出了extsc{Coop KernelUCB},这是一个在每个agent regret上提供近似最优边界的算法,在计算和通信方面都是有效的。对于合作问题的特殊情况,我们还提供了extsc{Coop KernelUCB}的变体,它提供了每个agent的最优regret。此外,我们的算法推广了多agent bandit环境下已有的一些结果。最后,在一系列综合的和真实的多智能体网络基准测试中,我们证明了我们的算法明显优于现有的基准测试。
2. Robust Multi-Agent Decision-Making with Heavy-Tailed Payoffs
Abhimanyu Dubey (Massachusetts Institute of Technology) · Alex `Sandy’ Pentland (MIT)
研究了多智能体协作环境下的重尾随机bandit问题,其中一组agent与一个共同的bandit问题相互作用,同时在网络上进行有时延的通信。现有的随机bandit算法利用基于平均的通信协议产生的置信区间,该协议不适合重尾设置的鲁棒估计。我们提出了一个分散的多智能体算法来解决协作随机bandit问题,它将鲁棒估计与消息传递协议结合起来。我们证明了在多个问题设置下的最优regret界,并证明了它比现有方法的优越性。此外,我们建立了合作bandit问题的第一下界,并提供了鲁棒bandit位置估计的有效算法。
3. Multi-Agent Determinantal Q-Learning
Yaodong Yang (Huawei Technology R&D UK) · Ying Wen (UCL) · Jun Wang (UCL) · Liheng Chen (Shanghai Jiao Tong University) · Kun Shao (Huawei Noah’s Ark Lab) · David Mguni (Noah’s Ark Laboratory, Huawei) · Weinan Zhang (Shanghai Jiao Tong University)
分散执行的集中式训练已成为多智能体学习的一种重要范式。目前的方法虽然实用,但是依赖于限制性的假设来分解agent之间的集中的值函数以供执行。本文通过提出多智能体行列式Q学习来消除这种限制。我们的方法建立在Q-DPP上,它是行列式点过程(DPP)在多智能体环境下的推广。Q-DPP促进了agent获得不同的行为模型;这使得联合Q函数可以自然分解,而不需要对值函数或特殊的网络结构进行结构约束。我们证明了Q-DPP在可分散协作任务上推广了包括VDN、QMIX和QTRAN在内的主要解决方案。为了有效地从Q-DPP中提取样品,我们采用了一个线性时间取样器,并保证了理论近似性。我们的采样器也有利于通过协调agent在训练期间覆盖状态空间中的正交方向进行探索。我们对我们的算法在各种协作基准上进行了评估,并与最新的算法进行了比较,证明了算法的有效性。
4. Learning Efficient Multi-agent Communication: An Information Bottleneck Approach
Rundong Wang (Nanyang Technological University) · Xu He (Nanyang Technological University) · Runsheng Yu (Nanyang Technological University) · Wei Qiu (Nanyang Technol

这篇博客是对ICML 2020会议上多智能体强化学习论文的总结。涵盖了从延迟通信的协同学习、重尾随机bandit问题的鲁棒决策,到行列式Q学习、信息瓶颈通信方法,再到角色强化学习、分层智能体架构等多个方面。文章讨论了如何通过优化合作、解决通信限制、角色涌现和泛化能力提升等方面来改进多智能体强化学习的性能,并提供了在不同场景下的应用实例和实验结果。
最低0.47元/天 解锁文章
4074

被折叠的 条评论
为什么被折叠?



