ICLR 2020 多智能体强化学习论文总结

这篇博客总结了ICLR 2020会议上涉及多智能体强化学习(MARL)的论文,涵盖了网络化系统控制、内在动机、子任务依赖、交互建模、探索策略等多个方面。文章提到了多个具体研究,如使用NeurComm减少信息丢失的网络化MARL,以及通过内在动机促进协同行为的研究。还讨论了如何通过进化种群课程(EPC)扩展多智能体强化学习的规模,以及CM3框架在多目标多阶段多agent学习中的应用。整体上,尽管多智能体强化学习不是会议的主流,但仍有重要的研究进展。

如有错误,欢迎指正

本篇为自我学习过程中的要点记录,仅作学习使用。
所引用内容的链接将全部粘贴于下方,如有侵权,请与本人联系。

所引用内容链接

感谢这篇汇总
ICLR 2020 强化学习相关论文合集: https://zhuanlan.zhihu.com/p/134589960.

Multi-Agent RL

1.Multi-agent Reinforcement Learning For Networked System Control

Tianshu Chu · Sandeep Chinchali · Sachin Katti

研究了网络化系统控制中的多智能体强化学习(MARL)。具体地说,每个agent基于本地观察和来自连接邻居的消息来学习分散控制策略。我们将这种网络化MARL(NMARL)问题描述为一个时空Markov决策过程,并引入空间折扣因子来稳定每个局部agent的训练。此外,我们提出了一种新的可微通信协议NeurComm,以减少NMARL中的信息丢失和非平稳性。通过在自适应交通信号控制和协同自适应巡航控制的实际NMARL场景下的实验,适当的空间折扣因子有效地增强了非通信MARL算法的学习曲线,而NeurComm在学习效率和控制性能上都优于现有的通信协议。

通信场景

2.Intrinsic Motivation For Encouraging Synergistic Behavior

Rohan Chitnis · Shubham Tulsiani · Saurabh Gupta · Abhinav Gupta

我们研究了在稀疏奖励协同任务中,内在动机作为强化学习的一种探索偏向的作用。协同任务是多个主体必须协同工作才能达到各自无法达到的目标。我们的核心思想是,协同任务中内在动机的一个好的指导原则是,采取影响世界的行动,而这些动作是智能体无法自己实现的。因此,我们建议激励智能体采取(联合)行动,其效果无法通过每个单独智能体的预测效果的组合来预测。我们研究了这一思想的两个实例,一个基于遇到的真实状态,另一个基于与策略同时训练的动力学模型。前者比较简单,后者的优点是对所采取的行动具有可分析的可微性。我们验证了我们的方法在机器人双手操作和稀疏奖励的多智能体运动任务中的有效性;我们发现我们的方法比两种方法都能产生更有效的学习效果:1)仅使用稀疏奖励的训练;2)使用典型的基于惊喜的内在动机公式,该公式不偏向协同行为。项目网页上提供了视频:https://sites.google.com/view/iclr2020-synergistic.

协同行为,机器人场景

3.Meta Reinforcement Learning With Autonomous Inference Of Subtask Dependencies

Sungryull Sohn · Hyunjae Woo · Jongwook Choi · Honglak Lee

我们提出并解决了一个新的少样本RL问题,其中任务的特征是一个子任务图,该子任务图描述了一组子任务及其对agent的依赖性。agent需要在适应阶段快速适应任务,在适应阶段只需几个回合就可以使测试阶段的回报最大化。与直接学习元策略不同,<

### 多智能体强化学习学术论文下载途径 多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)是一个快速发展的研究领域,涉及多个智能体在共享环境中通过交互来实现各自目标的过程[^2]。为了获取最新的MARL相关学术论文,可以采用以下几种方法: #### 1. **知名会议和期刊** 许多高质量的MARL研究成果发表于顶级人工智能和机器学习会议及期刊中。这些平台包括但不限于: - ICLR (International Conference on Learning Representations)[^4] - NeurIPS (Conference on Neural Information Processing Systems) - AAAI (Association for the Advancement of Artificial Intelligence)[^1] - ICML (International Conference on Machine Learning) 可以通过访问这些会议官网或其合作出版商(如arXiv、SpringerLink、IEEE Xplore等)检索关键词“multi-agent reinforcement learning”,找到相关的论文。 #### 2. **预印本服务器 arXiv** arXiv 是一个开放存取的电子预印本文库,涵盖了大量计算机科学领域的前沿工作。可以直接在其网站上搜索主题词“multi-agent reinforcement learning”或者具体的算法名称(如MADDPG、QMIX等),并按时间排序筛选最新文章[^3]。 #### 3. **Google Scholar 和 Microsoft Academic** 这两个搜索引擎专门用于科研文献查询。输入精确的主题术语可以帮助定位特定类型的MARL研究进展。例如,“Anytime Multi-Agent Path Finding via Machine Learning-Guided Large Neighborhood Search” 可能出现在这样的索引服务里[^1]。 #### 4. **大学和技术公司实验室主页** 很多顶尖高校的研究小组以及科技巨头(谷歌DeepMind、Facebook AI Research FAIR、阿里巴巴达摩院等)都会定期发布他们在MARL方面的探索成果。浏览他们的官方网站往往可以获得一手资料链接至原始PDF文档。 #### 5. **在线图书馆与数据库** 如果需要正式版本而非预印刷版,则可利用机构订阅权限进入如下大型综合型数字图书管理系统查阅付费墙后的全文内容: - ScienceDirect - Wiley Online Library - Taylor & Francis Online 以下是Python脚本示例展示如何自动化抓取某些公开资源中的元数据信息作为进一步手动挑选依据之一: ```python import requests from bs4 import BeautifulSoup def fetch_arxiv_papers(query='multi-agent reinforcement learning', max_results=10): base_url = f"https://export.arxiv.org/api/query?search_query=all:{query}&start=0&max_results={max_results}" response = requests.get(base_url) soup = BeautifulSoup(response.content, 'xml') entries = soup.find_all('entry') papers_info = [] for entry in entries: title = entry.title.text.strip() summary = entry.summary.text.strip().replace('\n',' ') link = entry.id.text paper_data = { "Title":title, "Summary":summary[:200]+'...', #截断摘要显示前两百字符加省略号 "URL":link } papers_info.append(paper_data) return papers_info if __name__ == "__main__": results = fetch_arxiv_papers() for idx,result in enumerate(results,start=1): print(f"{idx}. {result['Title']}\n Summary: {result['Summary']}\n URL: {result['URL']}\n") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值