ICLR 2020 多智能体强化学习论文总结
- 如有错误,欢迎指正
- Multi-Agent RL
-
- 1.Multi-agent Reinforcement Learning For Networked System Control
- 2.Intrinsic Motivation For Encouraging Synergistic Behavior
- 3.Meta Reinforcement Learning With Autonomous Inference Of Subtask Dependencies
- 4.Multi-agent Interactions Modeling With Correlated Policies
- 5.influence-based Multi-agent Exploration
- 6.Learning Nearly Decomposable Value Functions Via Communication Minimization
- 7.Learning Expensive Coordination: An Event-based Deep Rl Approach
- 8.Evolutionary Population Curriculum For Scaling Multi-agent Reinforcement Learning
- 9.Cm3: Cooperative Multi-goal Multi-stage Multi-agent Reinforcement Learning
- 10.Learning To Coordinate Manipulation Skills Via Skill Behavior Diversification
- 11.Action Semantics Network: Considering the Effects of Actions in Multiagent Systems
- 总结
如有错误,欢迎指正
本篇为自我学习过程中的要点记录,仅作学习使用。
所引用内容的链接将全部粘贴于下方,如有侵权,请与本人联系。
所引用内容链接
感谢这篇汇总
ICLR 2020 强化学习相关论文合集: https://zhuanlan.zhihu.com/p/134589960.
Multi-Agent RL
1.Multi-agent Reinforcement Learning For Networked System Control
Tianshu Chu · Sandeep Chinchali · Sachin Katti
研究了网络化系统控制中的多智能体强化学习(MARL)。具体地说,每个agent基于本地观察和来自连接邻居的消息来学习分散控制策略。我们将这种网络化MARL(NMARL)问题描述为一个时空Markov决策过程,并引入空间折扣因子来稳定每个局部agent的训练。此外,我们提出了一种新的可微通信协议NeurComm,以减少NMARL中的信息丢失和非平稳性。通过在自适应交通信号控制和协同自适应巡航控制的实际NMARL场景下的实验,适当的空间折扣因子有效地增强了非通信MARL算法的学习曲线,而NeurComm在学习效率和控制性能上都优于现有的通信协议。
通信场景
2.Intrinsic Motivation For Encouraging Synergistic Behavior
Rohan Chitnis · Shubham Tulsiani · Saurabh Gupta · Abhinav Gupta
我们研究了在稀疏奖励协同任务中,内在动机作为强化学习的一种探索偏向的作用。协同任务是多个主体必须协同工作才能达到各自无法达到的目标。我们的核心思想是,协同任务中内在动机的一个好的指导原则是,采取影响世界的行动,而这些动作是智能体无法自己实现的。因此,我们建议激励智能体采取(联合)行动,其效果无法通过每个单独智能体的预测效果的组合来预测。我们研究了这一思想的两个实例,一个基于遇到的真实状态,另一个基于与策略同时训练的动力学模型。前者比较简单,后者的优点是对所采取的行动具有可分析的可微性。我们验证了我们的方法在机器人双手操作和稀疏奖励的多智能体运动任务中的有效性;我们发现我们的方法比两种方法都能产生更有效的学习效果:1)仅使用稀疏奖励的训练;2)使用典型的基于惊喜的内在动机公式,该公式不偏向协同行为。项目网页上提供了视频:https://sites.google.com/view/iclr2020-synergistic.
协同行为,机器人场景
3.Meta Reinforcement Learning With Autonomous Inference Of Subtask Dependencies
Sungryull Sohn · Hyunjae Woo · Jongwook Choi · Honglak Lee
我们提出并解决了一个新的少样本RL问题,其中任务的特征是一个子任务图,该子任务图描述了一组子任务及其对agent的依赖性。agent需要在适应阶段快速适应任务,在适应阶段只需几个回合就可以使测试阶段的回报最大化。与直接学习元策略不同,<

这篇博客总结了ICLR 2020会议上涉及多智能体强化学习(MARL)的论文,涵盖了网络化系统控制、内在动机、子任务依赖、交互建模、探索策略等多个方面。文章提到了多个具体研究,如使用NeurComm减少信息丢失的网络化MARL,以及通过内在动机促进协同行为的研究。还讨论了如何通过进化种群课程(EPC)扩展多智能体强化学习的规模,以及CM3框架在多目标多阶段多agent学习中的应用。整体上,尽管多智能体强化学习不是会议的主流,但仍有重要的研究进展。
最低0.47元/天 解锁文章
2942

被折叠的 条评论
为什么被折叠?



