ICLR 2020 多智能体强化学习论文总结

这篇博客总结了ICLR 2020会议上涉及多智能体强化学习(MARL)的论文,涵盖了网络化系统控制、内在动机、子任务依赖、交互建模、探索策略等多个方面。文章提到了多个具体研究,如使用NeurComm减少信息丢失的网络化MARL,以及通过内在动机促进协同行为的研究。还讨论了如何通过进化种群课程(EPC)扩展多智能体强化学习的规模,以及CM3框架在多目标多阶段多agent学习中的应用。整体上,尽管多智能体强化学习不是会议的主流,但仍有重要的研究进展。

如有错误,欢迎指正

本篇为自我学习过程中的要点记录,仅作学习使用。
所引用内容的链接将全部粘贴于下方,如有侵权,请与本人联系。

所引用内容链接

感谢这篇汇总
ICLR 2020 强化学习相关论文合集: https://zhuanlan.zhihu.com/p/134589960.

Multi-Agent RL

1.Multi-agent Reinforcement Learning For Networked System Control

Tianshu Chu · Sandeep Chinchali · Sachin Katti

研究了网络化系统控制中的多智能体强化学习(MARL)。具体地说,每个agent基于本地观察和来自连接邻居的消息来学习分散控制策略。我们将这种网络化MARL(NMARL)问题描述为一个时空Markov决策过程,并引入空间折扣因子来稳定每个局部agent的训练。此外,我们提出了一种新的可微通信协议NeurComm,以减少NMARL中的信息丢失和非平稳性。通过在自适应交通信号控制和协同自适应巡航控制的实际NMARL场景下的实验,适当的空间折扣因子有效地增强了非通信MARL算法的学习曲线,而NeurComm在学习效率和控制性能上都优于现有的通信协议。

通信场景

2.Intrinsic Motivation For Encouraging Synergistic Behavior

Rohan Chitnis · Shubham Tulsiani · Saurabh Gupta · Abhinav Gupta

我们研究了在稀疏奖励协同任务中,内在动机作为强化学习的一种探索偏向的作用。协同任务是多个主体必须协同工作才能达到各自无法达到的目标。我们的核心思想是,协同任务中内在动机的一个好的指导原则是,采取影响世界的行动,而这些动作是智能体无法自己实现的。因此,我们建议激励智能体采取(联合)行动,其效果无法通过每个单独智能体的预测效果的组合来预测。我们研究了这一思想的两个实例,一个基于遇到的真实状态,另一个基于与策略同时训练的动力学模型。前者比较简单,后者的优点是对所采取的行动具有可分析的可微性。我们验证了我们的方法在机器人双手操作和稀疏奖励的多智能体运动任务中的有效性;我们发现我们的方法比两种方法都能产生更有效的学习效果:1)仅使用稀疏奖励的训练;2)使用典型的基于惊喜的内在动机公式,该公式不偏向协同行为。项目网页上提供了视频:https://sites.google.com/view/iclr2020-synergistic.

协同行为,机器人场景

3.Meta Reinforcement Learning With Autonomous Inference Of Subtask Dependencies

Sungryull Sohn · Hyunjae Woo · Jongwook Choi · Honglak Lee

我们提出并解决了一个新的少样本RL问题,其中任务的特征是一个子任务图,该子任务图描述了一组子任务及其对agent的依赖性。agent需要在适应阶段快速适应任务,在适应阶段只需几个回合就可以使测试阶段的回报最大化。与直接学习元策略不同,<

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值