MULTIPOLAR: Multi-Source Policy Aggregation for Transfer Reinforcement
Learning between Diverse Environmental Dynamics 论文翻译笔记
聚类是一种机器学习算法!!
题目:多极:多源策略聚合,用于不同环境动态/环境动力学之间的迁移强化学习
Abstract
迁移强化学习(Transfer Reinformation learning,RL):通过利用其他来源的agent在相关任务中的知识来提高另一个agent 的学习效率。 然而,在不接触源环境的情况下,在不同的环境动态之间传递知识仍然具有挑战性。
//迁移学习:迁移学习通过将源任务学习到的经验应用到目标任务,从而让目标任务的训练更灵活高效,也更贴近现实情况——往往要解决的目标问题可能很难直接学习,因为训练数据不足或者无法直接与环境交互难以获得训练数据。/ 给定一个源域 Ds 和学习任务 Ts,一个目标域 Dt 和学习任务 Tt,迁移学习致力于通过使用源域 Ds 和源任务 Ts 中的知识,帮助提升目标域 Dt 中的目标预测函数 f_T() 的学习,其中 Ds≠Dt,或者 Ts≠Tt。
本文解决的迁移强化学习中的新挑战:只有一组从不同未知动态下收集的源策略,如何学习目标任务?
为了解决此问题而提出的多源策略聚合方法包含以下两个关键技术:
1.学习自适应地聚合源策略提供的操作以最大化目标任务性能。对于源任务的度量指标有没有这个?
2.学习一个辅助网络,该网络可以预测聚合操作周围的残差,从而确保目标策略的表达能力,即使某些源策略执行得很差。
主要贡献:
1.一个新的迁移强化学习问题,该问题利用在不同未知环境动态下收集的多个源策略,在另一个动态中训练目标策略。
2.)多极,这是一个经过大量实验验证的原则性有效解决方案。
//残差在数理统计中是指实际观察值与估计值(拟合值)之间的差。“残差”蕴含了有关模型基本假设的重要信息。如果回归模型正确的话, 我们可以将残差看作误差的观测值。
实验:在六个模拟环境中进行广泛的实验评估,从经典控制问题到具有挑战性的机器人仿真,在连续和离散动作空间下,证明了多极的有效性。
//多极化指的是区别 多源化指的是来源
Introduction
动态因素不同:指的是策略隐含的条件不同。
提出了两点贡献。
Preliminaries 各种介绍
Reinforcement Learning:对环境进行马尔科夫决策过程建模,六元组,初始状态分布、折扣因子、状态、动作、奖励、状态转移分布/在状态 s 下,执行 a 动作的影响函数 T。考虑动作空间连续和离散两种情况。
Reinforcement Learning:考虑相同环境的K个实例,只在状态转换动力学上不同。通过一个索引MDP对每个环境实例进行建模,没有状态转移分布Ti是相同的。与之前工作不同,我们假设当训练目标策略时每个Ti是未知的,比如,智能体无法访问Ti的确切形式,也无法访问从Ti中采样的状态集合。
Problem Statement:给定一组源策略,训练一个新目标智能体的策略,目标代理与另一个环境交互,源与目标状态转移分布不同,因为有不同的动力学。
Multi-Source Policy Aggregation 多源策略聚合
我们通过使用a)、b)制定目标策略:
a)、源策略集合中确定性动作的自适应聚合
b)、辅助网络预测聚合动作周围的残差
首先给出了连续动作空间的方法,然后将其推广到离散空间。
a)Adaptive Aggregation of Source Policies.源策略的自适应聚合
动作表示:
表示源策略预测的动作,基于给定的当前状态。对于连续动作空间,是一个D维实值向量,表示在每个时间步中联合执行的D个动作。
对于源策略的集合,我们推导出他们的确定性动作矩阵。
动作表示:分为 确定性动作(Determinstic Actions) 和 随机性动作(Stochastic Actions)
● 确定性动作:T:S × A -> S,对于每一个状态和动作可以确定下一个状态
● 随机性动作:T:S × A -> Prob(S),对于每一个状态和动作可以确定下一个状态的概率分布
这项工作的关键思想是在RL循环中自适应地聚合At,即最大化预期回报。
//基线方法:
这种适应性聚合为我们提供了一个“基线”动作,即使我们不知道每个源环境动态,也能在目标策略的训练中引入强归纳偏差。相比之下,其他方法需要访问Ti或相关物理参数。
具体地说,我们定义了自适应聚合函数,基于当前状态生成基线动作:
:可训练参数矩阵 既不是规范化的,也不是正则化的,它可以独立地 scale每个策略的每个操作
意味着和 A2T [Rajendran et al., 2017] 方法不同
:按元素的乘法
:长度K的all-ones vector 全是一的向量
我们不仅自适应地插入动作空间,而且更灵活地强调信息源动作,同时抑制不相关的动作。此外,与从零开始训练新网络以将状态映射到聚合权重的A2T方法不同,我们的方法以与状态无关的方式直接估计θagg,因为环境动力学的差异会影响整个状态空间中的最优操作,而不是其一部分。
b)Predicting Residuals around Aggregated Actions.预测聚合动作周围的残差
使用辅助网络和一起预测聚合动作的残差。
从以下两方面改进目标策略的训练:
1.如果来自Fagg的聚合动作在目标环境实例中已经很有用,Faux将更正它们以获得更高的预期回报。
2.否则,Faux将学习目标任务,同时利用Fagg作为指导探索过程的先决条件。
任何网络都可以用于Faux,只要它是参数化的和完全可微的。
MULTIPOLAR 函数表示为:
:表示的可训练参数集
Target Policy.
目标策略π可以通过参数化MULTIPOLAR 函数为高斯分布来建模
即
:根据所用强化学习算法要求 估计的协方差矩阵
将状态映射到动作的固定函数
高斯策略相对于θagg和θaux是可微的,因此可以使用显式更新策略参数的任何RL算法进行
离散空间的目标策略里是D维独热编码
//独热编码:https://blog.youkuaiyun.com/weixin_44585583/article/details/112742237
是的输出,其中表示要执行第j个动作。
的输出可以看作是D维的非规范化动作分数,从中我们可以抽样用softmax函数归一化后的离散动作。
4 Experimental Evaluation
通过实证证明MULTIPOLAR训练的目标策略的样本效率
policy trained with MULTIPOLAR (denoted by“MULTIPOLAR policy”)
为了在合理的时间内完成实验,除非另有说明,否则我们将源策略的数量设置为K=4。
4.1Experimental Setup
Baseline Methods:基线方法
什么是残差策略学习?什么是基线方法?
1.standard multi-layer perceptron (MLP) trained from scratch
2.A2T [Rajendran et al., 2017] approach with the modification of replacing the actions sampled from stochastic source policies with deterministic source actions.
修改了一下这个方法:把从随机源策略中采样的动作换成 确定性源动作 ?
We also made A2T employable in continuous action spaces by formulating the target policy in the same
way as MULTIPOLAR explained in Section 3.
用 MULTIPOLAR方法使A2T可以用在连续动作空间上
note:现有的迁移强化学习和元强化学习方法不能用作基线,因为他们要求策略在环境实例的分布上训练过,在本文的问题设置上式不可能的。
此外,使用多个源策略的其他技术,如策略重用框架【Fernández和V eloso,2006】【Parisotto等人,2016】和【Y u等人,2019】,也不适用,因为它们要求源策略 根据目标环境动态 收集 或根据已知源动态同时进行训练。
Environments:we conducted comparative evaluations of MULTIPOLAR on the following six OpenAI Gym
environments:
Experimental Procedure实验步骤:太多了没看
Implementation Details 实施细节:没看
4.2 Results
Sample Efficiency:
看不懂
Ablation Study消融实验:
//说白了就是设立对照组的意思,通过去除某个模块的作用,来证明该模块的必要性,如果消融实验后得到结果不好或者性能大
//幅下降,说明该模块起到了作用。
表明自适应聚合和预测残差都是至关重要的。
Effect of Source Policy Performances:即使在只有低性能源策略的最坏情况下,多极的样本效率也与从头开始学习的效率相当。这表明多极避免了负迁移,当迁移降低而不是帮助学习效率时,就会发生负迁移。
图5显示了一个示例,其中MULTIPOLAR成功地学会了抑制无用的低性能源,以最大化目标任务中的预期回报,这表明了源策略拒绝的机制 。
Effect of Number of Source Policies:
我们建议在达到应用程序所需的推理时间限制之前,通过使用尽可能多的源策略来平衡这种速度-性能权衡。
5.Discussion and Related Work
自己的与众不同和未来的改进方向:
Transfer between Different Dynamics:所提出的MULTIPOLAR模型允许通过从具有各种未知动态的源环境实例中获取的策略进行知识转移,这在源环境和目标环境不总是相互连接以交换有关其动态和训练样本的信息时是有益的。
Leveraging Multiple Policies:利用多个策略
别人的:每个源策略都表现良好,他们的重用机制只是通过重用一个源策略。
在本文中行不通,因为在我们的问题设置中,每个源策略背后的环境动态不同。重复使用单个策略并不是正确方法。通过凸组合利用多个源策略性能有限(别人的工作),因为没有我们的源策略聚合。分层RL:巴拉巴拉 分层RL方法对于利用在不同环境动态下获得的多个源策略并不有用。
//convex combination 凸组合:
Learning Residuals in RL学习RL中的残差:我们的方法可以在广泛的环境中同时处理连续和离散的动作空间
Future Directions未来方向:1.增加源策略数量 2.使用MULTiPOLAR方法在组合优化问题上,以及涉及其他类型的环境差异,例如不同的奖励函数和状态/行动空间的问题上。
6 Conclusion
无