2020ICML多智能体强化学习论文简介

这篇博客是对ICML 2020会议上多智能体强化学习论文的总结。涵盖了从延迟通信的协同学习、重尾随机bandit问题的鲁棒决策,到行列式Q学习、信息瓶颈通信方法,再到角色强化学习、分层智能体架构等多个方面。文章讨论了如何通过优化合作、解决通信限制、角色涌现和泛化能力提升等方面来改进多智能体强化学习的性能,并提供了在不同场景下的应用实例和实验结果。

如有错误,欢迎指正

本篇为自我学习过程中的要点记录,仅作学习使用。
所引用内容的链接将全部粘贴于下方,如有侵权,请与本人联系。

所引用内容链接

感谢这篇汇总
ICML2020 180篇强化学习论文汇总: https://zhuanlan.zhihu.com/p/147774833?utm_source=ZHShareTargetIDMore.

Multi-Agent RL

1. Kernel Methods for Cooperative Multi-Agent Learning with Delays

Abhimanyu Dubey (Massachusetts Institute of Technology) · Alex `Sandy’ Pentland (MIT)

多智能体协同决策是指在网络上进行具有时延的通信时,一群智能体协同解决学习问题。本文考虑了kernelised contextual bandit问题。1其中一个agent获得的奖赏是相关再生核Hilbert空间(RKHS)中上下文图像的任意线性函数,并且一组agent必须合作来共同解决其唯一的决策问题。对于这个问题,我们提出了extsc{Coop KernelUCB},这是一个在每个agent regret上提供近似最优边界的算法,在计算和通信方面都是有效的。对于合作问题的特殊情况,我们还提供了extsc{Coop KernelUCB}的变体,它提供了每个agent的最优regret。此外,我们的算法推广了多agent bandit环境下已有的一些结果。最后,在一系列综合的和真实的多智能体网络基准测试中,我们证明了我们的算法明显优于现有的基准测试。

2. Robust Multi-Agent Decision-Making with Heavy-Tailed Payoffs

Abhimanyu Dubey (Massachusetts Institute of Technology) · Alex `Sandy’ Pentland (MIT)

研究了多智能体协作环境下的重尾随机bandit问题,其中一组agent与一个共同的bandit问题相互作用,同时在网络上进行有时延的通信。现有的随机bandit算法利用基于平均的通信协议产生的置信区间,该协议不适合重尾设置的鲁棒估计。我们提出了一个分散的多智能体算法来解决协作随机bandit问题,它将鲁棒估计与消息传递协议结合起来。我们证明了在多个问题设置下的最优regret界,并证明了它比现有方法的优越性。此外,我们建立了合作bandit问题的第一下界,并提供了鲁棒bandit位置估计的有效算法。

3. Multi-Agent Determinantal Q-Learning

Yaodong Yang (Huawei Technology R&D UK) · Ying Wen (UCL) · Jun Wang (UCL) · Liheng Chen (Shanghai Jiao Tong University) · Kun Shao (Huawei Noah’s Ark Lab) · David Mguni (Noah’s Ark Laboratory, Huawei) · Weinan Zhang (Shanghai Jiao Tong University)

分散执行的集中式训练已成为多智能体学习的一种重要范式。目前的方法虽然实用,但是依赖于限制性的假设来分解agent之间的集中的值函数以供执行。本文通过提出多智能体行列式Q学习来消除这种限制。我们的方法建立在Q-DPP上,它是行列式点过程(DPP)在多智能体环境下的推广。Q-DPP促进了agent获得不同的行为模型;这使得联合Q函数可以自然分解,而不需要对值函数或特殊的网络结构进行结构约束。我们证明了Q-DPP在可分散协作任务上推广了包括VDN、QMIX和QTRAN在内的主要解决方案。为了有效地从Q-DPP中提取样品,我们采用了一个线性时间取样器,并保证了理论近似性。我们的采样器也有利于通过协调agent在训练期间覆盖状态空间中的正交方向进行探索。我们对我们的算法在各种协作基准上进行了评估,并与最新的算法进行了比较,证明了算法的有效性。

4. Learning Efficient Multi-agent Communication: An Information Bottleneck Approach

Rundong Wang (Nanyang Technological University) · Xu He (Nanyang Technological University) · Runsheng Yu (Nanyang Technological University) · Wei Qiu (Nanyang Technol

### 多智能体强化学习学术论文下载途径 多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)是一个快速发展的研究领域,涉及多个智能体在共享环境中通过交互来实现各自目标的过程[^2]。为了获取最新的MARL相关学术论文,可以采用以下几种方法: #### 1. **知名会议和期刊** 许多高质量的MARL研究成果发表于顶级人工智能和机器学习会议及期刊中。这些平台包括但不限于: - ICLR (International Conference on Learning Representations)[^4] - NeurIPS (Conference on Neural Information Processing Systems) - AAAI (Association for the Advancement of Artificial Intelligence)[^1] - ICML (International Conference on Machine Learning) 可以通过访问这些会议官网或其合作出版商(如arXiv、SpringerLink、IEEE Xplore等)检索关键词“multi-agent reinforcement learning”,找到相关的论文。 #### 2. **预印本服务器 arXiv** arXiv 是一个开放存取的电子预印本文库,涵盖了大量计算机科学领域的前沿工作。可以直接在其网站上搜索主题词“multi-agent reinforcement learning”或者具体的算法名称(如MADDPG、QMIX等),并按时间排序筛选最新文章[^3]。 #### 3. **Google Scholar 和 Microsoft Academic** 这两个搜索引擎专门用于科研文献查询。输入精确的主题术语可以帮助定位特定类型的MARL研究进展。例如,“Anytime Multi-Agent Path Finding via Machine Learning-Guided Large Neighborhood Search” 可能出现在这样的索引服务里[^1]。 #### 4. **大学和技术公司实验室主页** 很多顶尖高校的研究小组以及科技巨头(谷歌DeepMind、Facebook AI Research FAIR、阿里巴巴达摩院等)都会定期发布他们在MARL方面的探索成果。浏览他们的官方网站往往可以获得一手资料链接至原始PDF文档。 #### 5. **在线图书馆与数据库** 如果需要正式版本而非预印刷版,则可利用机构订阅权限进入如下大型综合型数字图书管理系统查阅付费墙后的全文内容: - ScienceDirect - Wiley Online Library - Taylor & Francis Online 以下是Python脚本示例展示如何自动化抓取某些公开资源中的元数据信息作为进一步手动挑选依据之一: ```python import requests from bs4 import BeautifulSoup def fetch_arxiv_papers(query='multi-agent reinforcement learning', max_results=10): base_url = f"https://export.arxiv.org/api/query?search_query=all:{query}&start=0&max_results={max_results}" response = requests.get(base_url) soup = BeautifulSoup(response.content, 'xml') entries = soup.find_all('entry') papers_info = [] for entry in entries: title = entry.title.text.strip() summary = entry.summary.text.strip().replace('\n',' ') link = entry.id.text paper_data = { "Title":title, "Summary":summary[:200]+'...', #截断摘要显示前两百字符加省略号 "URL":link } papers_info.append(paper_data) return papers_info if __name__ == "__main__": results = fetch_arxiv_papers() for idx,result in enumerate(results,start=1): print(f"{idx}. {result['Title']}\n Summary: {result['Summary']}\n URL: {result['URL']}\n") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值