强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。并且诸多研究成果发表于ICLR-2021学术会议中,为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第17期《强化学习周刊》。本期周刊整理了ICLR-2021中强化学习领域相关的最新论文推荐、综述、新工具、课程等,以飨诸位。
周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。
本期贡献者:李明,刘青,陈斌
本文来源:智慧社源
论文推荐
强化学习近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步。人工智能顶会ICLR-2021对强化学习取得了一系列瞩目的进展进行了发布,比如循环元强化学习、进化强化学习相关的理论及其最新应用等。
本次推荐了11篇ICLR-2021强化学习领域的相关论文,主要涉及应用深度强化学习进行博弈策略求解、循环元强化学习内部机制、基于谱强化学习的渐进式奖励、进化强化学习、非动态强化学习、嵌入式自预测强化学习、不稳定的环境中的意外最小化强化学习等。
标题:Iterative Empirical Game Solving via Single Policy Best Response(基于单策略最佳响应的迭代经验博弈求解)
论文地址:https://www.aminer.cn/pub/600831cd9e795ed227f530cf?f=cs
简介:策略空间响应预言机 (PSRO) 是一种通用算法框架,用于通过将经验博弈分析与深度强化学习 (Deep RL)交叉应用于多智能体系统中的策略学习。在每次迭代中,都会调用深度强化学习来训练对混合策略的最佳响应。当希望将此算法应用于更复杂的领域时,深度强化学习的重复应用会带来昂贵的计算负担。故本文介绍了 PSRO 的两种变体,旨在减少深度强化学习训练期间所需的模拟量。两种算法都根据对单个对手策略的学习响应来修改 PSRO 如何向经验游戏添加新策略。第一种是混合预言机,其从深度强化学习的先前迭代中转移知识,只需要针对对手的最新策略进行训练。第二种是混合对手,其通过混合现有策略的动作价值估计,而不是根据自身的策略来构建纯策略对手。针对单一策略的学习缓解了由未观察到的对手分布引起的状态结果的差异。研究表明,这些算法大大减少了 PSRO 所需的训练过程中的模拟量,同时为博弈提供了同等或更优的解决方案。
标题:What is Going on Inside Recurrent Meta Reinforcement Learning Agents?(循环元强化学习智能体的内部工作机制)
论文地址:https://www.aminer.cn/pub/608fc12d91e01142b70f24aa?f=cs
简介:循环元强化学习 (meta-RL) 智能体是应用循环神经网络“学习一种学习算法” (RNN) 的智能体。在预先指定的任务分布上进行训练后,可以说智能体的 RNN 的学习权重通过其活动动态实现了一种有效的学习算法,该算法允许agent快速求解从同一分布中采样的新任务。然而,由于这些智能体的黑盒性质,它们的工作方式尚未完全了解。本文通过使用部分可观察马尔可夫决策过程 (POMDP) 框

最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



