[文献阅读] - HRL -[HRL with Universal Policies for Multi-Step Robotic Manipulation]

分层强化学习框架下的多步任务解决方法

原创

已于 2022-07-25 19:41:35 修改 · 569 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2022-07-24 14:45:30 首次发布

2021 IEEE Transactions on Neural Networks and Learning Systems
链接

摘要

多步任务，比如堆方块，组装或者拆装零件等对于自动的机器人控制而言是很复杂的。一个机器人系统为了完成这样的任务，需要层次化的结合低水平的运动控制和高水平的象征性规划。最近RL已经展现了更加灵活和更加广泛的机器人运动控制。但是这些方法在处理复杂问题上还存在限制，比如设计许多步的规划和控制上（long time horizon）。首先，目前的RL难以通过很多步的规划实现变化的输出。（以不同的次序搭建木块）。另外，多步任务的有效探索效率很低，尤其是奖励很稀疏的情况下。 本文提出了一种统一的分层强化学习框架universal Option framework（UOF），来使得智能体能够在多部任务下学习多种的输出。为了提升学习效率，我们同时训练了象征性规划和动态控制策略，并使用以下两种方法进行辅助：自动可调整的探索策略（AAES）和高水平的抽象示教方法。为了评估结果的性能，我们在各种的多步堆方块任务（有不同的形状和不同程度的机器人自由度控制）开展实验。结果展示了我们的方法可以高效稳定地实现多步任务，并且消耗了更少的内存。

前言

人类解决复杂问题时通常是将其分成多步进行。类似的，对于一个机器人实现像组装这样的任务，他要求将任务分解成一系列的中间步，如将夹子移动到一个位置，然后抓取物体，放置物体等等。这样分解任务能够实现不同的结合和不同的次序，从而完成不同的想要的结果。
本文寻求能够基于强化学习，解决如此多步的规划和控制问题。对于堆积多个物块的问题，机器人首先需要学习各种想要的结果：抓取并将木块以不同的次序放置，生成不同形状的结构。比如绿-蓝-红、蓝-绿-红（从底部到顶部的颜色）等等。第二点，机器人需要学习想要结果的依赖步。举个例子，如果没办法将物体有效的抓取，就没办法进行放置物体。之前的学习要么只处理一种特定的次序，要么忽略这些次序。
对于包含多步的任务，我们假设学到的技巧，知识和经验是可以共享和再次使用的。举例来讲，在不同的位置放置两个物体，都依赖于将物块抓起来。这也就激励了我们学习高水平的规划和低水平的动态控制（有全局策略的，基于多任务的强化学习）。
但是，不同步之间的相互联系使得学习非常困难，尤其是奖励非常稀疏的情况下。考虑一个任务，智能体在学习堆放两个不同的木块（只在完成任务时进行奖励），智能体只有学会抓取A，才能学习将A放在B上。也就是说，探索会变得很没有效率。
一个很流行的方式就是手动设计一种人类根据经验设计的奖励函数，减少奖励的稀疏性。但是这要求了复杂的设计，并引入了人们的偏见。另外一种方式就是使用示教。比如，由人类执行的运动轨迹有助于提升学习效率。但是这样的示教方式成本较高，而且没办法适用于多任务。
总而言之，根据上述的研究缺口，本文研究了以下的问题：

如何在一个多步任务中学习到各种不同的想要的结果
如何通过容易收集的数据、示教数据来提升学习的有效性

对于问题1，我们将结合 HRL和全局策略，形成我们的UOF。 HRL能够通过高水平的规划和低水平的运动控制，来使得机器人学习更长horizon的多步任务。它通常将任务分解成有序步；而全局策略（一个在规划层面，一个在控制层面），使得多目标学习实现不同的输出（规划层面）和多种操作技能（control level）

我们提出的并行学习能够更加的有学习效率，避免重复的信息收集。但是并行的训练是非常不稳定的。因为高水平的规划是基于低水平的探索探索策略，是由很多噪音，并且很多时候是无用的。这样的噪音数据会使得高水平的策略难以有稳定的提升。很多之前的工作尝试通过分别训练的方式来解决这个问题。但是在本文中，我们提出了一种使得并行学习稳定的方式：根据在不同步实现目标的性能，来适应性的减少低水平策略的探索。

为了解决问题2，我们引入了一种抽象形式的示教方法：不同步之间的正确顺序。用于解决极端的稀疏奖励的问题。这受启发于在真实的环境例子：搭建乐高积木时的指导/或者组装家具时的指导。不是收集运动轨迹的示教，或者改变奖励函数，而是使用抽象的示教方法。在我们的实验中，已经证明了能够显著的提高学习的效率。

我们通过在仿真环境中的7自由度机器人 Fetch Robot来学习一系列的木块堆积任务。低水平的策略通过DPPG+HER来实现。对于高水平的策略，本文采用结合深度学习与经验回放方式的intra-option learning algorithm。

Universal Option Framework

在原先的OF中，高水平的策略规划options来实现一个任务，而低水平的option在一段时间内执行低水平的动作，来实现不同的子任务。我们将低水平和高水平的规划都拓展到目标为导向的，然后我们的高层次option就可以在低水平的option中选择，同时赋予其目标。而高水平policy则可以用来规划不同的任务。
简而言之，本部分的A section将定义全局的universal option和基于目标的高水平policy；然后B section将说明两者之间的联系。C section将讨论同步学习中的非静态问题。D section将提供在多步物块堆积任务的UOF中各种模块（state，action，goal and rewards）的表示方法。

section A: universal option and high-level policy

universal option:

$o_g<I_g,\pi^L_g,\beta^L_g>$ ，消除了需要训练多个低水平策略的需要。

$I_g$ 是目标可以实现的初始状态。在本文中，我们假设每一个目标都可以从任意的状态中实现。也就是说 $I_g$ 没有限制，不需要定义.(是否有 $I_g$ 需要限制的例子，然后可以进行实现). 不过这个过程中可能会包含中间的动作。

$\pi^L_g(a^L|s,g^L)$ 是基于目标的低水平策略，其中 $g^L \in G^L$ ，策略根据当前状态和目标生成对应的动作。

$\beta^L_g$ 表示基于目标的终止函数。对于任何目标，他都能给出在任意状态下目标被实现，然后option终止的概率。我们假设这是一个可知的决定性映射。

是否会设置步长最大值

并不是所有的policy都可以实现最终的目标，是否可以减少一下限制，我们能否通过设置model，来获取当前s,o,g $\rightarrow$ s’，来得到实际上他能到达的状态，而不是真正的目标

对于奖励函数：本文采用稀疏奖励，只有每一个option任务达到了才会有奖励0，其他时刻奖励都是-1.

universal high-level policy

$\pi_g^H(a^H|s,g^H)$ ，其中 $g^H \in G^H$ 是高层次的目标。它通过在低层次option赋予不同的低水平目标，最后达到高水平的目标。通过稀疏奖励来说明高层次的目标是否有没有达到。

section B: 低水平控制和高水平规划之间的联系

本文中，我们认为手动的将一个任务分成了N个关键步。然后我们假设可以得到一个从高水平的状态映射到 N个想要的低水平目标的映射。 $\psi^N:S \rightarrow G_1^L,G_2^L, \dots, G_N^L$ ，从状态映射到N个。为了能够在步和步之间规划，我们假设高水平的policy输出只有N个离散的动作，对应着N步。如果一个高水平的动作被执行，低水平的策略会收到一个低水平的目标。
包含有四个子步：
1）高水平随机的一个目标 $g^H$
2）高水平的策略 $\pi_g^H$ 做一个动作 $a^H$