强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。并且诸多研究成果发表于ICLR-2021学术会议中,为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第17期《强化学习周刊》。本期周刊整理了ICLR-2021中强化学习领域相关的最新论文推荐、综述、新工具、课程等,以飨诸位。
周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。
本期贡献者:李明,刘青,陈斌
本文来源:智慧社源
论文推荐
强化学习近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步。人工智能顶会ICLR-2021对强化学习取得了一系列瞩目的进展进行了发布,比如循环元强化学习、进化强化学习相关的理论及其最新应用等。
本次推荐了11篇ICLR-2021强化学习领域的相关论文,主要涉及应用深度强化学习进行博弈策略求解、循环元强化学习内部机制、基于谱强化学习的渐进式奖励、进化强化学习、非动态强化学习、嵌入式自预测强化学习、不稳定的环境中的意外最小化强化学习等。
标题:Iterative Empirical Game Solving via Single Policy Best Response(基于单策略最佳响应的迭代经验博弈求解)
论文地址:https://www.aminer.cn/pub/600831cd9e795ed227f530cf?f=cs
简介:策略空间响应预言机 (PSRO) 是一种通用算法框架,用于通过将经验博弈分析与深度强化学习 (Deep RL)交叉应用于多智能体系统中的策略学习。在每次迭代中,都会调用深度强化学习来训练对混合策略的最佳响应。当希望将此算法应用于更复杂的领域时,深度强化学习的重复应用会带来昂贵的计算负担。故本文介绍了 PSRO 的两种变体,旨在减少深度强化学习训练期间所需的模拟量。两种算法都根据对单个对手策略的学习响应来修改 PSRO 如何向经验游戏添加新策略。第一种是混合预言机,其从深度强化学习的先前迭代中转移知识,只需要针对对手的最新策略进行训练。第二种是混合对手,其通过混合现有策略的动作价值估计,而不是根据自身的策略来构建纯策略对手。针对单一策略的学习缓解了由未观察到的对手分布引起的状态结果的差异。研究表明,这些算法大大减少了 PSRO 所需的训练过程中的模拟量,同时为博弈提供了同等或更优的解决方案。
标题:What is Going on Inside Recurrent Meta Reinforcement Learning Agents?(循环元强化学习智能体的内部工作机制)
论文地址:https://www.aminer.cn/pub/608fc12d91e01142b70f24aa?f=cs
简介:循环元强化学习 (meta-RL) 智能体是应用循环神经网络“学习一种学习算法” (RNN) 的智能体。在预先指定的任务分布上进行训练后,可以说智能体的 RNN 的学习权重通过其活动动态实现了一种有效的学习算法,该算法允许agent快速求解从同一分布中采样的新任务。然而,由于这些智能体的黑盒性质,它们的工作方式尚未完全了解。本文通过使用部分可观察马尔可夫决策过程 (POMDP) 框架重新制定元强化学习问题,阐明了这些代理的内部工作机制。本文假设学习到的活动动态可以作为此类智能体的信念状态。基于说明性实验研究表明,该假设是正确的,并且循环元强化学习智能体可以被视为学习在由多个相关任务组成的部分可观察环境中采取最佳行动的智能体。这种观点有助于理解相关失败案例和文献中报告的一些有趣的基于模型的结果。
标题:Adapting to Reward Progressivity via Spectral Reinforcement Learning(基于谱强化学习适应奖励渐进性)
论文地址:https://www.aminer.cn/pub/600833a69e795ed227f531a8?f=cs
简介:本文考虑了具有渐进奖励的强化学习任务;即奖励往往会随着时间的推移而增加的任务。其假设对于基于价值的深度强化学习代理来说,这个属性可能是有问题的,特别是如果代理必须首先在任务中相对无奖励的区域取得成功,才能到达更多有奖励的区域。为了解决这个问题,本文提出了 Spectral DQN,它将奖励分解为频率,使得高频仅在发现大奖励时激活。并且其允许平衡训练损失,以便在大小奖励区域之间提供更均匀的权重。在具有极端奖励渐进性的两个领域中,基于价值的标准方法存在显着问题,而Spectral DQN 能够取得更进一步的进展。此外,当在一组不明显支持该方法的标准 Atari 游戏上进行评估时,Spectral DQN 仍然具有较强竞争力:虽然它在一场游戏中的表现低于基准之一,但在三场游戏中却轻松地超过了基准。这些结果表明该方法并没有对其目标问题过度拟合,并且表明 了Spectral DQN 可能具有解决奖励渐进性之外的优势。
标题:What Matters In On-Policy Reinforcement Learning?A Large-Scale Empirical Study(在策略强化学习中什么是重要的?大规模的实证研究)
论文地址:https://www.aminer.cn/pub/5ee3526a91e011cb3bff746e?f=cs
简介:近年来,关于策略强化学习的研究取得了成功,适用于许多不同的连续控制任务。尽管RL算法通常在概念上很简单,但其最先进的实现需要做出大量的低级和高级设计决策,这些决策严重影响最终智能体的性能。这些选择通常不会在文献中广泛讨论,导致已发布的算法描述与其实现之间存在差异。这使得很难将进度归因于RL,并减慢了总体进度。作为填补这一差距的一步,文章在统一的策略RL框架中实施了超过50个这样的“选择”,使其能够在大规模实证研究中调查它们的影响。文章在五个不同复杂性的连续控制环境中培训了超过25万名之智能体,并为RL智能体的策略培训提供了见解和实用建议。
标题:Parrot: Data-Driven Behavioral Priors for Reinforcement Learning/Parrot(强化学习的数据驱动行为先验)
论文地址:https://www.aminer.cn/pub/5fb7a07091e01122f29d6a4d?f=cs
简介:强化学习为灵活的决策和控制提供了一个通用框架,但需要为智能体学习的每个新任务收集大量数据。在其他机器学习领域,如自然语言处理或计算机视觉,在之前收集的大型数据集上进行预训练,以引导新任务的学习,已经成为一种强大的范例,可以在学习新任务时减少数据需求。在本文中,提出以下问题:如何为RL智能体提供类似有用的预训练?文章提出了一种预训练行为先验的方法,该方法可以从大量以前看到的任务中捕获成功试验中观察到的复杂输入-输出关系,并且我们展示了如何在不妨碍RL智能体尝试新行为的能力的情况下,将所学先验用于快速学习新任务。该文证明了其方法在挑战涉及图像观察和稀疏奖励函数的机器人操作领域的有效性,其中本文的方法比以前的工作有很大的优势。其他资料可访问项目网站:https://sites.google.com/view/parrot-rl。
标题:Evolving Reinforcement Learning Algorithms(进化强化学习算法)
论文地址:https://www.aminer.cn/pub/600833a89e795ed227f531aa?f=cs
简介:文章提出了一种元学习强化学习算法,算法在计算图空间中搜索,计算基于值的无模型RL智能体的损失函数以进行优化。所学习的算法是领域不可知的,并且可以推广到训练期间未看到的新环境。该方法既可以从头开始学习,也可以从已知的现有算法(如DQN)中引导,从而实现可解释的修改,从而提高性能。该方法从头开始学习简单的经典控制和网格世界任务,重新发现了时间差分(TD)算法。从DQN引导,文章重点介绍了两种学习算法,它们比其他经典控制任务、gridworld类型任务和Atari游戏获得了良好的泛化性能。对学习算法行为的分析表明,它们与最近提出的RL算法类似,解决了基于值方法中的高估问题。
标题:Off-Dynamics Reinforcement Learning: Training for Transfer with Domain Classifiers (非动态强化学习: 带域分类的迁移训练方法)
论文地址:https://www.aminer.cn/pub/5ef476b991e01165a63bbd0d?f=cs
简介:本文提出了一种简单,实用和直观的方法来进行强化学习中的领域适应。文中的方法源于这样的想法,即智能体在源域中的经验应类似于其在目标域中的经验。基于RL的概率视图,我们正式可以通过修改奖励函数来补偿动态差异最终实现此目标。通过学习将源域转换与目标域转换区分开的辅助分类器,可以轻松估算此修改后的奖励函数。从直观上看,修改后的奖励功能对探员访问源和在源域中采取在目标域中不可能执行的动作的行为进行了惩罚。另一方面,智能体会因为那些表明智能体正在与源域而不是目标域互动的过渡而受到惩罚。我们的方法适用于具有连续状态和行动的领域,不需要学习明确的动力学模型。在离散和连续的控制任务上,我们阐明了此方法的机制,并证明了它在高维任务上的可扩展性。
标题:UPDET: UNIVERSAL MULTI-AGENT REINFORCEMENT LEARNING VIA POLICY DECOUPLING WITH TRANSFORMERS (用Transformer策略解耦的通用多智体策略学习)
论文地址:https://www.aminer.cn/pub/60094a1e91e011721878d7e6?f=cs
简介:最近在多智能体强化学习方面的进展主要限于为每个新任务从头开始训练一个模型。这种限制是由于固定的输入和输出维度有关的模型结构的限制,这阻碍了经验的积累和所学到的代理在不同难度的任务中的转移。我们首次尝试探索一个通用的多智能体强化学习算法,设计一个单一的架构以适应不同观察和行动配置要求的任务。不同于以前基于RNN的模型,我们利用一个基于Transformer的模型来产生一个灵活的策略,通过将策略分布与相互交织的输入观察解耦,在使用自注意力机制的帮助下确定的重要性权重。所提出的模型,这里命名为通用策略解耦转化器(UPDeT),进一步放宽了行动限制,使多智能体任务的决策过程更容易解释。可以嵌入到任何多智能体强化学习方案中,基于UPDeT的多智能体强化学习相对于SOTA方法取得了显著的改善。
标题:Contrastive Explanations for Reinforcement Learning via Embedded Self Predictions( 通过嵌入自预测强化学习的对比解释)
论文地址:https://www.aminer.cn/pub/5f8581a591e011ff3280972d?f=cs
简介:本文研究了一种深度强化学习(RL)架构,它支持解释为什么学习的智能体更喜欢一个动作而不是另一个动作。关键思想是学习动作-价值,通过人类可理解的预期未来属性直接表示。这是通过嵌入式自我预测(ESP)模型实现的,该模型根据人类提供的特征学习所述属性。然后可以通过对比为每个动作预测的未来属性来解释动作偏好。为了解决存在大量特征的情况,本文开发了一种从ESP中计算最小充分解释的新方法。本文通过在三个领域的案例研究(包括一个复杂的策略游戏)表明,ESP模型可以被有效地学习,并支持有洞察力的解释。
标题:Learning Invariant Representations for Reinforcement Learning without Reconstruction(无需重构的强化学习的学习不变表示)
论文地址:https://www.aminer.cn/pub/5eede0b791e0116a23aafede?f=cs
简介:本文研究了表征学习如何在不依赖领域知识或像素重建的情况下,从丰富的观测(例如图像)中加速强化学习。本文的目标是学习提供有效的下游控制和对任务无关细节的不变性的表示。双模拟度量量化了连续 MDP 中状态之间的行为相似性,文章建议使用它来学习稳健的潜在表示,这些潜在表示仅对来自观察的任务相关信息进行编码。本文的方法训练编码器,使得潜在空间中的距离等于状态空间中的模拟距离。本文使用修改后的视觉 MuJoCo 任务证明了此方法在忽略与任务无关信息方面的有效性,其中背景被移动的干扰物和自然视频代替,同时实现了 SOTA 性能。本文还测试了第一人称高速公路驾驶任务,其中此方法学习了对云、天气和一天中的时间的不变性。最后,本文提供了从互模拟度量的属性中得出的泛化结果,并与因果推理联系起来。
标题:SMiRL: Surprise Minimizing Reinforcement Learning in Unstable Environments(SMiRL:不稳定的环境中的意外最小化强化学习)
论文地址:https://www.aminer.cn/pub/600833a09e795ed227f531a3?f=cs
简介:每个生物体都在与破坏性的环境力量作斗争,以开拓和维持一个有序的生态位。本文提出,这种实现和维护秩序的斗争可能为人工智能中有用行为的出现提供一个原则。本文将这个想法形式化为一种无监督的强化学习方法,称为意外最小化强化学习(SMiRL)。SMiRL 在学习密度模型以评估刺激的意外性和改进策略以寻求更可预测的刺激之间切换。该策略寻求稳定和可重复的情况,以抵消环境的主要熵源。这可能包括避免其他敌对智能体,或为双足机器人在面对干扰力时找到稳定、平衡的姿势。本文证明,意外最小化智能体能够在没有任何特定任务奖励监督的情况下成功玩俄罗斯方块、毁灭战士、控制人形机器人避免摔倒、在迷宫中导航逃离敌人。本文进一步证明SMiRL可以与标准任务奖励一起使用,以加速奖励驱动学习。
综述
医学影像中的深度强化学习:
论文地址:https://www.aminer.cn/pub/604892f891e0115491a5cac8?f=cs
简介:深度强化学习 (DRL) 增强了强化学习框架,该框架利用深度神经网络的代表性力量来学习最大化预期奖励的一系列动作。最近的工作证明了 DRL 在医学和医疗保健方面的巨大潜力。本文介绍了医学影像中 DRL 的文献综述。从 DRL 的综合教程开始,包括最新的无模型和基于模型的算法。然后,介绍了现有的医学成像 DRL 应用,它们大致分为三个主要类别:(i)参数医学图像分析任务,包括界标检测、对象/病变检测、配准和视图平面定位;(ii) 解决优化任务,包括超参数调整、选择增强策略和神经架构搜索;(iii) 其他应用,包括手术手势分割、个性化移动健康干预和计算模型个性化。本文最后讨论了未来的前景。
新工具
基于Actor-Learner蒸馏的强化学习中的高效Transformers
论文地址:https://www.aminer.cn/pub/600831839e795ed227f530bc?f=cs
简介:许多实际的应用,如机器人技术,在功率和计算方面提供了严格的限制,从而限制了强化学习(RL)代理的可行模型复杂性。类似地,在许多分布式RL环境中,动作是在未加速的硬件(例如 CPU)上完成的,其同样限制了模型大小,以防止难以处理的实验运行时间。这些“actor-latency”约束设置对模型复杂性的扩展构成了主要障碍,而模型复杂性最近在监督学习中非常成功。为了能够利用大容量模型,同时在表演过程中仍在系统施加的约束范围内运行,本文开发了一个“Actor-Learner蒸馏”(ALD)程序,其利用连续蒸馏形式,将学习进度从大容量学习者模型转移到小容量参与者模型。作为案例研究,本文在部分可观测环境的背景下开发了该程序,其中转换器模型最近比LSTM有了很大的改进,但计算复杂度显著提高。以Transformer模型作为学习器,LSTM作为Actor,本文在几个具有挑战性的记忆环境中证明,使用Actor-Learner Distillation蒸馏可以使恢复 Transformer Actor模型清晰样本的效率增加,同时保持LSTM- Actor模型的快速推理和减少 LSTM 的总训练时间。
AI赋能的科技情报挖掘系统(AMiner - AI赋能科技情报挖掘)
AMiner是一个科技情报分析与挖掘平台,利用AI为用户高效获取和理解科研情报,内容囊括论文、学者、专利、报告、会议、专题集等多种形式,涵盖计算机科学、医学、通信、地学、物理等40个学科,通过智能推荐引擎、搜索引擎、关注订阅等获取想要的知识。