[文献阅读] - HRL -[HRL with Universal Policies for Multi-Step Robotic Manipulation]

分层强化学习框架下的多步任务解决方法

2021 IEEE Transactions on Neural Networks and Learning Systems
链接

摘要

多步任务,比如堆方块,组装或者拆装零件等 对于自动的机器人控制而言是很复杂的。 一个机器人系统为了完成这样的任务,需要层次化的结合 低水平的运动控制和高水平的象征性规划。 最近RL已经展现了更加灵活和更加广泛的机器人运动控制。 但是这些方法在处理复杂问题上还存在限制,比如设计许多步的规划和控制上(long time horizon)。 首先,目前的RL难以通过很多步的规划实现变化的输出。(以不同的次序搭建木块)。 另外,多步任务的有效探索效率很低,尤其是奖励很稀疏的情况下。 本文提出了一种统一的分层强化学习框架universal Option framework(UOF), 来使得智能体能够在多部任务下学习多种的输出。为了提升学习效率,我们同时训练了象征性规划和动态控制策略,并使用以下两种方法进行辅助:自动可调整的探索策略(AAES)和高水平的抽象示教方法。 为了评估结果的性能,我们在各种的多步堆方块任务(有不同的形状和不同程度的机器人自由度控制)开展实验。结果展示了 我们的方法可以高效稳定地实现多步任务,并且消耗了更少的内存。

前言

人类解决复杂问题时通常是将其分成多步进行。 类似的,对于一个机器人实现像组装这样的任务,他要求将任务分解成一系列的中间步,如将夹子移动到一个位置,然后抓取物体,放置物体等等。 这样分解任务能够实现不同的结合和不同的次序,从而完成不同的想要的结果。
本文寻求能够基于强化学习,解决如此多步的规划和控制问题。对于堆积多个物块的问题,机器人首先需要学习各种想要的结果:抓取并将木块以不同的次序放置,生成不同形状的结构。 比如 绿-蓝-红、蓝-绿-红(从底部到顶部的颜色)等等。第二点,机器人需要学习想要结果的依赖步。举个例子,如果没办法将物体有效的抓取,就没办法进行放置物体。之前的学习要么只处理一种特定的次序,要么忽略这些次序。
对于包含多步的任务,我们假设学到的技巧,知识和经验是可以共享和再次使用的。 举例来讲,在不同的位置放置两个物体,都依赖于将物块抓起来。 这也就激励了我们学习高水平的规划和低水平的动态控制(有全局策略的,基于多任务的强化学习)。
但是,不同步之间的相互联系使得学习非常困难,尤其是奖励非常稀疏的情况下。考虑一个任务,智能体在学习堆放两个不同的木块(只在完成任务时进行奖励),智能体只有学会抓取A,才能学习将A放在B上。 也就是说,探索会变得很没有效率。
一个很流行的方式就是手动设计一种人类根据经验设计的奖励函数,减少奖励的稀疏性。但是这要求了复杂的设计,并引入了人们的偏见。另外一种方式就是使用示教。比如,由人类执行的运动轨迹有助于提升学习效率。 但是这样的示教方式成本较高,而且没办法适用于多任务。
总而言之,根据上述的研究缺口,本文研究了以下的问题:

  1. 如何在一个多步任务中学习到各种不同的想要的结果
  2. 如何通过容易收集的数据、示教数据来提升学习的有效性

对于问题1,我们将结合 HRL和全局策略,形成我们的UOF。 HRL能够通过高水平的规划和低水平的运动控制,来使得机器人学习更长horizon的多步任务。它通常将任务分解成有序步;而全局策略(一个在规划层面,一个在控制层面),使得多目标学习实现不同的输出(规划层面)和多种操作技能(control level)

我们提出的并行学习能够更加的有学习效率,避免重复的信息收集。但是并行的训练是非常不稳定的。因为高水平的规划是基于低水平的探索探索策略,是由很多噪音,并且很多时候是无用的。这样的噪音数据会使得高水平的策略难以有稳定的提升。很多之前的工作尝试通过分别训练的方式来解决这个问题。但是在本文中,我们提出了一种使得并行学习稳定的方式:根据在不同步实现目标的性能,来适应性的减少低水平策略的探索。

为了解决问题2,我们引入了一种抽象形式的示教方法:不同步之间的正确顺序。用于解决极端的稀疏奖励的问题。这受启发于在真实的环境例子:搭建乐高积木时的指导/或者组装家具时的指导。不是收集运动轨迹的示教,或者改变奖励函数,而是使用抽象的示教方法。在我们的实验中,已经证明了能够显著的提高学习的效率。

我们通过在仿真环境中的7自由度机器人 Fetch Robot来学习一系列的木块堆积任务。低水平的策略通过DPPG+HER来实现。对于高水平的策略,本文采用 结合深度学习与经验回放方式的intra-option learning algorithm。

相关的文章

options & HRL

一个研究方向是 定义或者预先训练固定数目的options,然后学习高水平的inter-option 作为象征规划/技能组合。
本工作中的两大难点: 同步学习过程中非静态的转换问题(由于低水平算法的性能提升,高水平之前得到的经验有了M明显的偏差)。 我们在本文中提出了一种新颖的探索方式,来解决同步学习过程中的非静态问题。 不同于之前方法中关注于提升探索的效率,我们关注于减少低水平控制中的不必要探索,从而增加同步学习中的稳定性。 另外,我们使用低水平的策略来实现不同结果的高水平策略,比如以不同的次序堆叠木块。 而最近的HRL方法都只关注于单一任务。

GRL

基于目标的价值函在固定环境中整合了学习不同目标时的所有经验。这种方式可以在稀疏奖励的情况下进一步利用HER。

机器人 堆物块任务

堆物块是一种典型的需要长horizon的动作规划与控制任务。

Universal Option Framework

在原先的OF中,高水平的策略规划options来实现一个任务,而低水平的option在一段时间内执行低水平的动作,来实现不同的子任务。 我们将 低水平和高水平的规划 都拓展到 目标为导向的,然后我们的高层次option就可以在低水平的option中选择,同时赋予其目标。而高水平policy则可以用来规划不同的任务。
简而言之,本部分的A section将定义全局的universal option和基于目标的高水平policy;然后B section将说明两者之间的联系。C section将讨论同步学习中的非静态问题。D section将提供在多步物块堆积任务的UOF中各种模块(state,action,goal and rewards)的表示方法。

section A: universal option and high-level policy

  1. universal option:

o g < I g , π g L , β g L > o_g<I_g,\pi^L_g,\beta^L_g> og<Ig,πgL,βgL>,消除了需要训练多个低水平策略的需要。

I g I_g Ig是 目标可以实现的初始状态。在本文中,我们假设 每一个目标都可以从任意的状态中实现。 也就是说 I g I_g Ig没有限制,不需要定义.(是否有 I g I_g Ig需要限制的例子,然后可以进行实现). 不过这个过程中可能会包含中间的动作。

π g L ( a L ∣ s , g L ) \pi^L_g(a^L|s,g^L) πgL(aLs,gL)是 基于目标的低水平策略, 其中 g L ∈ G L g^L \in G^L gLGL, 策略根据当前状态和目标生成 对应的动作。

β g L \beta^L_g βgL表示 基于目标的终止函数。对于任何目标,他都能给出 在任意状态下 目标被实现,然后option终止的概率。 我们假设这是一个可知的决定性映射。

是否会设置步长最大值

并不是所有的policy都可以实现最终的目标,是否可以减少一下限制,我们能否通过设置model,来获取当前s,o,g → \rightarrow s’,来得到实际上他能到达的状态,而不是真正的目标

对于奖励函数: 本文采用稀疏奖励,只有每一个option任务达到了才会有奖励0,其他时刻奖励都是-1.

  1. universal high-level policy

π g H ( a H ∣ s , g H ) \pi_g^H(a^H|s,g^H) πgH(aHs,gH),其中 g H ∈ G H g^H \in G^H gHGH 是高层次的目标。 它通过在低层次option赋予不同的低水平目标,最后达到高水平的目标。 通过稀疏奖励来说明 高层次的目标是否有没有达到。

section B: 低水平控制和高水平规划之间的联系

本文中,我们认为手动的将一个任务分成了N个关键步。然后我们假设 可以得到一个 从 高水平的状态 映射到 N个想要的低水平目标的 映射。 ψ N : S → G 1 L , G 2 L , … , G N L \psi^N:S \rightarrow G_1^L,G_2^L, \dots, G_N^L ψN:SG1L,G2L,,GNL,从状态映射到N个。 为了能够在步和步之间规划,我们假设高水平的policy输出只有N个离散的动作,对应着N步。如果一个高水平的动作被执行,低水平的策略会收到一个低水平的目标。
包含有四个子步:
1)高水平随机的一个目标 g H g^H gH
2)高水平的策略 π g H \pi_g^H πgH做一个动作 a H a^H a

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值