AMiner会议论文推荐第四十一期

AMiner平台是由清华大学研发的学术搜索引擎,包含大量学术资源。本文精选三篇ICLR2021关于强化学习的研究论文,分别介绍了一种新的离线强化学习方法、一种电网管理的强化学习解决方案以及多智能体通信中的经验回放修正技术。

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价、专家发现、智能指派、学术地图等科技情报专业化服务。系统2006年上线,吸引了全球220个国家/地区1000多万独立IP访问,数据下载量230万次,年度访问量超过1100万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。


ICLR 2021 论文推荐

DeepAveragers: Offline Reinforcement Learning by Solving Derived Non-Parametric MDPs

论文链接:https://www.aminer.cn/pub/5f8eb59f91e01153024c4c89/?conf=iclr2021

推荐理由: 作者研究了一种离线强化学习(reinforcement learning,RL)的方法,该方法基于优化求解从静态经验数据集衍生的有限表示的MDP。这种方法可以应用在任何学习的表征之上,并且能够轻松地支持多个解决目标,以及对不断变化的环境和目标进行零射调整。该工作的主要贡献是引入深度平均器与成本MDP(DAC-MDP),并研究其用于离线RL的解决方案。DAC-MDPs是一种非参数模型,它可以利用深度表征,并通过引入利用模型中未充分体现的部分的成本来解释有限的数据。同时,作者还研究了一些环境中的经验行为,包括基于图像的观测。实验表明,该框架可以在实践中工作,并扩展到大型复杂的离线RL问题。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Winning the L2RPN Challenge: Power Grid Management via Semi-Markov Afterstate Actor-Critic

论文链接:https://www.aminer.cn/pub/600833889e795ed227f53195/?conf=iclr2021

推荐理由: 电网中安全可靠的电力传输对现代社会至关重要。因此,人们对电网自动管理越来越感兴趣,而学习运行电网挑战赛(Learning to Run a Power Network Challenge,L2RPN)就是一个很好的例子,它将问题建模为强化学习(reinforcement learning ,RL)任务。然而,管理一个真实世界规模的电网是非常具有挑战性的,这主要是由于其状态和行动空间的巨大规模。在本文中,作者提出了一种非政策行动者-批判方法,通过RL有效地解决电网管理中的独特挑战,采用分层策略与后状态表示。该工作的代理在最新的挑战中排名第一(L2RPN WCCI 2020),能够避免灾难性的情况,同时在每个测试场景中保持最高水平的运行效率。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Correcting Experience Replay for Multi-Agent Communication

论文链接:https://www.aminer.cn/pub/5f7c34b591e0117ac2a78861/?conf=iclr2021

推荐理由: 作者研究使用多代理强化学习(multi-agent reinforcement learning,MARL)学习通信问题。该问题的常见解决方法是使用从重放缓冲区中采样的数据进行非政策学习。然而,过去收到的信息可能无法准确反映每个代理的当前通信策略,这使得学习变得复杂。因此,该工作引入了 “通信校正”,以解决多代理学习引起的观察到的通信的非稳定性问题。它的工作原理是将接收到的信息重新贴上标签,使其在通信者的当前策略下成为可能,从而更好地反映接收者的当前环境。考虑到代理人既是发送者又是接收者的情况,作者还引入了一种有序的重标签方案。实验证明上述修正在计算上是高效的,并且可以与一系列的非策略算法集成,大幅提高了通信MARL系统在各种合作和竞争任务中的学习能力。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

AMiner,一个具有认知智能的学术搜索引擎:https://www.aminer.cn/

#AMiner# #论文#

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值