从操作规划的经验中学习:设定 正确的目标
安卡·D·德拉甘、杰弗里·J·戈登和悉达多·S·斯里尼瓦萨
1 引言
我们致力于推动机器人在复杂人类环境中进行轨迹优化的边界。已有大量文献表明,优化技术在这些领域中容易陷入高成本局部极小值而表现不佳。我们设想了两种可能缓解该问题的方法。第一种是通过拓宽低代价极小值的吸引域来改进优化器本身;第二种是改进初始化过程,从位于低代价极小值吸引域内的轨迹开始搜索。在我们先前的工作[1]中,我们通过拓宽高效轨迹优化器的吸引域,在前者方面取得了进展。
本文关注后者:学习生成初始轨迹,以使优化器能够收敛到低代价极小值。
那么机器人如何获得这种轨迹生成的预言机呢?在设计该预言机时,我们利用了三个关键特征:优化过程本身、任务中的重复性以及场景中的结构。
优化过程使我们无需生成低成本的初始轨迹,只要轨迹位于低成本轨迹的吸引域内,其成本高低并不重要。任务之间的重复性或相似性使得预言机能够通过先前经验学习如何生成轨迹。最后,场景中的结构提示我们可以使用定性属性来描述轨迹。例如,在厨房中,我们可以说“从微波炉的左侧经过,并从右侧抓取物体”。这些属性相比一系列构型,能以更紧凑的方式表示轨迹。本工作结合了这三个特征,提出了一种学习算法,该算法在给定新情况时,可通过预测轨迹应具备的定性属性值,生成位于低成本轨迹吸引域内的轨迹。因此,我们不再需要同时关注场景中的每一个体素,而是首先基于先前经验做出一些关键决策,然后在优化过程中细化细节。
利用先前经验来解决类似问题的思想并非新颖。在人工智能领域,这被称为基于案例的推理[3, 4],其核心思想是利用已解决的最相似问题的解决方案来解决新问题。在马尔可夫决策过程领域,Konidaris和Barto[5]研究了将整个马尔可夫决策过程的价值函数迁移到新情况中。斯托尔和阿特金森通过在轨迹之间插值为马尔可夫决策过程构建策略[6],然后利用状态周围的局部特征将状态-动作对迁移到新问题中[7, 8]。在运动规划中,从经验中学习包括重用先前的无碰撞路径[9],或根据先前环境在随机规划器中对采样过程进行偏向调整[10]。
耶切夫和图桑[11]研究了确定性与可观测性规划问题中的轨迹预测。他们专注于预测全局最优轨迹:给定一个包含情境及其全局最优轨迹的训练数据集,预测新情境下的全局最优轨迹。类似于基于案例的推理,他们的方法通过预测轨迹训练数据集中的索引作为候选轨迹[11, 12],或对轨迹进行聚类并预测聚类编号[11, 13]。由于预测并非完全准确,因此采用后处理阶段,从预测结果初始化一个局部优化器,以收敛到最近的局部极小值。
我们的方法在两个关键方面有所不同。首先,我们利用优化阶段的必要性,专注于预测落入低代价极小值吸引域内的轨迹这一更简单的问题。其次,通过预测低维属性而非完整的过去轨迹,我们能够生成超出先前经验数据库的轨迹,从而能够在远离训练集的情况下进一步泛化。
尽管数据集索引技术在从经验中学习以实现轨迹优化方面是一个有前景的开端,但其存在局限性:它们类似于计算机视觉领域的早期工作(例如[14]),其中对图像进行分类的一种方法是根据某些特征在训练集中找到最相似的图像,并预测其标签(或找到一组最相似的图像,并在后处理中验证它们的预测)。2006年,计算机视觉领域开始思考如何学习图像之间的距离度量[15],而轨迹预测目前正处于这一阶段。然而在2009年,物体识别领域开始改变这种分类范式,转向一种更为通用的物体识别方式,其核心思想很简单:不是直接预测物体本身,而是先预测物体的定性属性,再利用这些属性来推断物体[16, 17]。这种方法不仅提高了对已知物体的识别能力,还能使学习器能够识别之前从未见过的物体。类似的技术被用于[18],通过使用词语的物理属性作为中间表示,从受试者的脑部扫描中识别其正在思考的词语。我们提议将同样的思路应用于轨迹预测:与其直接预测轨迹,不如首先预测轨迹的定性属性,例如其目标点的位置,或其选择从障碍物的哪一侧通过,然后将这些定性属性映射为局部优化器的初始猜测。
在本研究中,在阐述了使用属性进行轨迹预测这一想法的动机之后,我们重点关注轨迹的一个关键属性:其终点。大多数操作任务由一个完整的目标区域而非单一目标构型来描述,而我们先前的工作[1]表明,目标的选择会显著影响优化器的结果。因此,通过更准确地选择优质目标,我们可以将优化器初始化在更优的吸引域中。我们利用机器人可通过其局部优化器便捷获取局部最优轨迹的特点,并能够在某种情况下获得包含多种轨迹及其性能的丰富数据集。我们比较了多种学习预测该属性值的方法,从判断某个值是否为最佳选择,到学习对这些值进行排序并选择排名最高的作为预测结果。
我们发现,当这些算法能够考虑有关次优性能的额外数据(即“试错”中的“误差”)时,其性能表现最佳。利用这些信息,学习器所预测的目标在包含不同起始点、目标物体姿态和杂乱配置的到达任务测试套件中,实现的成本可达到最小成本的8%–9%以内。我们还通过评估方法在训练与测试分布差异下的鲁棒性,研究了其泛化能力;同时展示了某些情况下依赖先前执行的轨迹库并不合适。我们认为这项工作为一种学习框架奠定了基础,使得过往经验中的强化信息得以被利用,以指导轨迹优化器做出正确的决策。
2 框架
2.1 轨迹优化
尽管我们的工作可以使用任何能够产生一致解的轨迹优化器,但我们将在此回顾一种特定优化器的细节,该优化器在广泛范围的操作任务中已被证明非常高效。在最近的研究[1]中,我们提出了目标集CHOMP,这是一种能够在避开碰撞的同时保持轨迹平滑的优化器,并且通过利用任务所允许的整个目标集配置来寻找更优解。该算法是在CHOMP优化器[2]基础上的改进,通过允许轨迹调整其目标,从而拓宽了低成本解的吸引域。
CHOMP优化一个在平滑性和障碍物代价之间进行权衡的函数:
$$
U[\eta] = \lambda f_{\text{prior}}[\eta] + f_{\text{obs}}[\eta] \quad \text{s.t. } h(\eta) = 0 \tag{1}
$$
其中先验衡量轨迹$\eta$上的平滑性(如速度或加速度的平方和),障碍物代价将机器人各部分推离碰撞,而$h$表示轨迹上的约束。
我们在轨迹空间$\mathcal{N}$中,基于黎曼度量$A$构成的信任区域内,对$U$和$h$在$\eta_t$处的泰勒级数展开进行一阶优化。例如,该黎曼度量可以是先验成本的海森矩阵,这将更倾向于平滑变形,而非欧几里得范数下的小变形。得到的轨迹更新规则如下:
$$
\eta_{t+1} = \arg\min_{\eta \in \mathcal{N}} U(\eta_t) + g_t^T (\eta - \eta_t) + \frac{\gamma_t}{2} |\eta - \eta_t|_A^2 \quad \text{s.t. } h(\eta_t) + h’(\eta_t)(\eta - \eta_t) = 0 \tag{2}
$$
对于CHOMP而言,轨迹的一种便捷表示方法是作为一系列路径点的向量:$\eta = (\eta[1], …, \eta[n])$。在这种情况下,CHOMP的一个典型约束是固定目标:$\eta[n] = q_{\text{goal}}$。目标集CHOMP放宽了这一假设,并将该约束替换为 $h_n(\eta[n]) = 0$:目标被限制在约束曲面上而非固定不变。
2.2 轨迹属性预测
术语“轨迹预测”指的是将情境$S$(任务描述)映射到一组能够解决这些情境的轨迹$\eta$的问题:
$$
s: S \to \mathcal{N} \tag{3}
$$
先前的工作[11, 13]提出通过学习索引示例数据集来解决此问题。该方法受限于先前执行的轨迹数据集,就像例如早期的物体识别工作受限于其所使用的标注图像一样。在我们的工作中,我们将使用轨迹的低维表示而非全维表示的思想与能够预测可泛化到更多不同情境的新轨迹的能力相结合。
我们的方法利用了优化器的能力来解决该问题。由于该优化器是局部的,因此其结果依赖于初始化,无法独立地生成全局最优轨迹,但可以产生具有不同成本的多个局部极小值。因此,训练数据集不仅包含针对该场景找到的最佳轨迹,还可以包含各种其他局部最优解。我们还强调,轨迹预测作为优化器的初始化阶段,由此得出以下关键观察:为了预测最优轨迹,我们只需预测其吸引域中的任意一条轨迹,然后让优化器进行收敛即可。
那么,我们能否利用这一观察结果,以一种既能预测新轨迹(而不仅仅是数据集中的轨迹)又能避免输出空间$\mathcal{N}$高维性的方式进行工作呢?我们提出,通常存在一些低维轨迹属性,通过预测这些属性值而非完整维度的轨迹,可使优化器进入期望的吸引域。其核心思想在于,在生成轨迹时,规划器面临若干关键决策,这些决策定义了轨迹的拓扑结构。一旦做出正确的决策,从任何满足这些决策的初始化出发,通过局部优化即可生成良好轨迹。这意味着,我们可以将预测良好轨迹的问题转化为预测这些核心属性的问题,然后将这些核心属性映射到轨迹上。接下来,我们将依次讨论这两个子问题。
2.3 属性
为了说明属性预测的概念,我们从图1中的玩具世界开始:一个点机器人需要从起点移动到目标,同时最小化(1)中的成本。如果在这个世界中运行CHOMP,根据初始轨迹的不同,我们会得到两种解:低成本和高成本的轨迹。为了收敛到低成本轨迹,我们可以从障碍物右侧的任意轨迹开始。预测最优轨迹就简化为预测单比特信息:障碍物的右侧与左侧。
在高维问题中,存在多个吸引域,我们不再讨论全局最优轨迹,而是讨论良好局部极小值与高成本甚至不可行局部极小值之间的区别。在这种情况下,通常会出现这样的情况:低成本区域仍然由简单决策(即低维度,甚至是离散的轨迹属性)来描述。图2展示了一个示例,其中从障碍物上方通过还是绕行将决定优化器是收敛到低成本轨迹还是高成本轨迹。在这种情况下,单比特信息即可将优化器置于良好的吸引域中。像CHOMP这样的优化器可以用满足此属性的简单轨迹进行初始化,例如图3中的轨迹,并且如相同图中所示,它会将轨迹弯曲以脱离碰撞,最终得到一条低成本轨迹。
基于这一观察,我们提出将轨迹预测范式转变为轨迹属性预测问题,即将首先预测良好轨迹应具备的关键属性:
$$
s: S \to A(\mathcal{N}; S) \tag{4}
$$
这里,$A(\mathcal{N}, S)$表示轨迹属性,这些属性依赖于具体情境,例如“在货架前方”或“肘部向上绕过柜子”。这些属性隐式地定义了一组轨迹子集$\mathcal{N}_A \subseteq \mathcal{N}$,随后,优化器从任意轨迹$\eta \in \mathcal{N}_A$进行初始化。整体框架是
$$
S \to A(\mathcal{N}; S) \to \eta \in \mathcal{N}_A \to \eta^
$$
其中$\eta^
$是$\eta$的吸引域中的局部最优轨迹。
根据一组属性($A(\mathcal{N}, S) \to \eta \in \mathcal{N}_A$)构造轨迹可视为求解一个简单的约束优化问题:从一条直线轨迹出发,我们希望在满足其若干路点上的某些约束的同时保持轨迹尽可能短。由于该问题是凸的,因此根据属性生成轨迹非常快速。此类问题的一个示例是“在X上方,然后到Y的左侧”,这会转化为对分段线性轨迹上两个路点的两个约束。图3中的示例即为这种情况的一个实例,其中一个约束作用于中点,要求该点位于冰箱门上方,从而在构型空间中生成两条直线轨迹段。类似地,目标属性将是对轨迹终点施加的约束。
3 学习选择好的目标
大多数操作任务由一整个目标区域来描述,而不是机器人必须达到的某个特定构型,以便完成任务。在抓取物体、将其放置在表面上或将其递交给某人时都会出现目标集。在我们先前的工作中,我们提出了目标集CHOMP,这是一种轨迹优化器,能够利用目标集来获得低成本解。然而,该优化器仍然是局部的,初始目标选择(即初始轨迹结束的目标)仍对最终轨迹的成本产生很大影响。图4绘制了在少量杂乱环境中抓取目标物体这一问题中,不同初始选择对应的最终成本。由于较大的
如图所示,目标的选择是优化器初始化过程中的一个关键组成部分。一旦做出选择,满足该属性值的轨迹$\eta \in \mathcal{N}_A$可以是从起点到该目标的直线轨迹。对于任何给定的情况,我们可以对目标集离散化后的每个目标,使用直线轨迹运行诸如目标集CHOMP之类的优化器。在本节中,我们将描述几种利用这些数据的不同方法,以学习预测应使用哪个目标进行初始化,从而最小化成本。
3.1 关于特征的一些说明
为了实现学习,我们设计了用于捕捉决定目标优劣潜在因素的特征。这些特征是衡量目标周围自由空间多少的指标。
目标以及实现该目标的难度。这些特征的一个子集如图5所示。我们在构建这些指标时注重简洁性,以测试在输入极少的情况下能够实现的效果。但我们确实相信,通过更大规模的特征集合,或许再结合特征选择方法,可以实现更高的性能。
我们也对使用特征学习从更原始的数据中生成此类特征的可能性感到兴奋,尽管仍有一些重要问题有待解决,例如如何向算法提供机器人运动学的信息。
3.1.1 一组最小特征集
- 从起点到目标在构型空间中的距离:$|\eta[N] - \eta[0]|$。较短的轨迹往往具有较低的成本,因此最小化该距离可能与预测相关。
- 目标构型的障碍物代价:机器人上所有身体点的障碍物代价之和,$\sum_b c(x_b(\eta[N]))$,其中$c$为工作空间中的障碍物代价,$x_b$为身体点$b$处的正向运动学函数。
- 从起点到目标的直线轨迹的障碍物代价:$\sum_i \sum_b c(x_b(\eta_i))$。如果直线轨迹穿过障碍物的中心区域,则可能更难找到无碰撞解。
- 目标半径:用于衡量目标周围自由空间大小的一个指标,表示当前目标附近有多少个目标具有无碰撞逆运动学解。例如,抓取瓶子的目标集可以表示为一个工作空间目标区域[19],其主要自由度方向是末端执行器的偏航角(这允许从任意角度抓取瓶子,如图4所示)。在这种情况下,该特征将计算当前目标左右两侧有多少个目标具有无碰撞逆运动学解,并取这两个数值中的较小值作为目标半径。目标周围杂物越密集,该半径就越小。相比第二个特征,它能够捕捉更远距离的杂乱情况。
- 肘部空间:位于肘部的无碰撞球体的最大半径,表示在特定目标构型下肘部周围的自由空间大小。限制肘部运动的构型可能更难达到。
- 目标碰撞量:初始轨迹最后$m$个构型中与目标物体发生碰撞的比例 $\frac{1}{m}\sum_{i=N-m+1}^{N} \text{collides}(\eta[i]; s)$。这里,当构型$q$与目标物体发生碰撞时,$\text{collides}(q)$为1,否则为0。该特征是影响到达目标难易程度的另一个因素——如果初始轨迹穿过目标物体,则将其弯曲以脱离碰撞可能过于困难。
3.1.2 领域自适应
在这些特征中,起点距离以及初始轨迹成本在不同场景之间可能存在显著差异,从而可能导致泛化困难。解决此问题的经典方法是标准化,但由于我们的训练集和测试集统计量之间存在较大差异,无法直接进行标准化。测试集中包含一些明显更难或远比训练集中任何场景都更容易的场景:训练数据永远无法涵盖机器人将面临的所有情境的多样性。我们仍需对这些情境进行泛化,因此我们在每个情境内对距离和成本特征进行归一化——这使得所有情境的成本范围相同,从而使学习器能够区分它们。然后,我们加入这两个特征的均值,以便让学习器了解场景的难度,之后再进行标准化。更复杂的领域自适应策略(例如,[20])属于未来工作范畴。
3.2 学习器
我们正在比较几种学习器,它们在所使用的模型(线性与非线性)、数据使用方式以及是专注于预测最佳成本还是整体拟合成本方面存在差异。
3.2.1 分类
(a) 基础版本:解决如何判断哪个目标是最优的问题的最简单方法是直接预测某个目标是否为最优。对于每种情况,我们将对应最小最终代价的目标赋值为1,其余所有目标赋值为0。
现在,我们可以训练一个标准的分类器,例如支持向量机,来预测目标的最优性。在新场景中,给定一组目标构型,该分类器将选择任意数量的目标作为最优目标,然后我们从这些目标中随机选择一个作为优化器的初始猜测。如果分类器预测这些目标中没有一个是最优的,则我们在所有目标中随机选择,即分类器未向优化器提供任何信息。
(b) 数据高效版本:由于我们能够获取成本信息,而不仅仅是“是否最优”的二元决策,因此另一种方法是允许分类器预测在最小成本的某个百分比范围内的任何目标。这可以通过软化分类器的数据来提供帮助,但当然会存在预测更高成本目标的权衡。我们在验证集上确定了该权衡值(即百分比阈值)。
3.2.2 逆向最优控制
(a) 基础版本:看待该问题的另一种方式是将最佳目标视为专家示范。在逆向最优控制中,我们希望构建一个成本函数来解释为何专家行为是最优的——在我们的情况下,我们希望在特征空间中构造一个成本函数$c_{\text{IOC}}$,使得在每种情况下,最佳目标都具有最优的成本。一旦获得该函数,我们便可将其应用于新场景中的目标,并选择使$c_{\text{IOC}}(f_g)$最小的目标$g^* = \arg\min_g$(此处$f_g$表示与目标$g$相关联的特征)。
采用在[21]中引入的最大边际规划方法,我们希望找到一个成本函数$c_{\text{IOC}} = w^T f$,使得最优目标以一定的边际具有最低的成本。为了提高泛化能力,我们将要求专家示例越远离的目标具有越大的边际:具体而言,我们定义$l(g, g’)$为结构化边际,当$g = g’$时其值为零,而当$g$和$g’$相距较远时其值较大。那么说某个目标$g$是最优的,意味着$w^T f_g \leq w^T f_{g’} \forall g’$。引入我们的结构化边际,使用松弛变量惩罚约束违反,并对$w$进行正则化,可得:
$$
\min_w \sum_s \left[ w^T f_{g_s^{\text{exp}}} - \min_i (w^T f_{g_s^i} - l(g_s^i, g_s^{\text{exp}})) \right]^+ + \frac{k}{2} |w|^2 \tag{5}
$$
其中$g_s^i$表示情境$s$中的目标$i$,而$l(g; g’) = |f_g - f_{g’}|^2_f$是结构化边际,用于惩罚在特征空间中远离专家的解。总体而言,$w$会因允许非专家目标具有低成本而受到惩罚。
对(5)取次梯度可得以下更新规则:
$$
w \leftarrow w - \alpha \sum_s \left( f_{g_s^{\text{exp}}} - f_{g_s^
} \right)^+ \quad \text{with } |w|
$$
where
$$
g_s^
= \arg\min_{g_i} \left( w^T f_{g_s^i} - l(g_s^i, g_s^{\text{exp}}) \right) \tag{7}
$$
该算法旨在识别最小成本目标(7),忽略与其他所有目标相关的成本。它通过不浪费资源去解释其他目标的情况而提高了效率。这种对专家的关注是否有效,将在第4节中确定。
(b) 数据高效版本:通过逆向最优控制(IOC),我们能够引入真实成本信息(我们确实拥有这些信息,而典型的IOC问题仅提供专家示例),同时仍保持对专家的聚焦。通过将边际$l_s$更改为目标与非目标之间的实际成本差异,可以实现这一点。专家目标而非特征距离,$l(g_s^i; g_s^{\text{exp}}) = U(\eta_{\text{final}}^{g_s^{\text{exp}}}) - U(\eta_{\text{final}}^{g_s^i})$,该算法将确保其新成本的最小值在真实成本上接近专家,即具有较低的成本。
在未来工作中,我们希望结合这两种距离度量,并像下一节3.2.3那样使用成本差异的截止值。
3.2.3 回归
(a) 基础版本:预测最小成本目标的第三种方法是预测与每个目标相关联的最终代价:
$$
f_s^{g_i} \to U(\eta_{\text{final}}^{g_i})
$$
其中$\eta_{\text{final}}^{g_i}$是通过将优化器初始化为从起点到目标$g$的直线而获得的最终轨迹,并选择其中最优的一条:
$$
g^* = \arg\min_{g_i} U(\eta_{\text{final}}^{g_i})
$$
这有时被称为arg min-回归。我们研究了三种不同的回归器:
- 线性回归:$w = F^\dagger C$,其中$F$是一个矩阵,按行拼接每种情况下的每个特征向量,$C$是一个向量,按行拼接目标集CHOMP获得的所有最终代价。
- 高斯过程:由于需要较远的知识迁移,宽幅的高斯径向基核表现最佳。
- 神经网络:我们使用了具有一个隐藏层的反向传播神经网络。我们根据在验证集上的性能确定了该层中的节点数量以及权重衰减系数。
(b) 数据-高效版本:观察线性回归在训练集上的初始性能(图6,左),可以明显看出存在大量成本非常高的数据点,而准确预测这些成本不仅没有必要,还会导致无法区分低成本解和中等水平的解。这表明,即使是这些回归器也不应使用全部数据,而应通过将成本截断在某个阈值下来集中精力区分低成本解。我们基于验证集选择该阈值,如图6(右)所示。该图显示,过低的阈值会使学习器关注高成本异常值,从而降低性能;而过高的阈值会因数据不足而损害学习器的性能。图6(中)展示了新的
)
4 实验结果
4.1 从有限数据中的泛化
在一次初步实验中,我们希望测试在新情境下的泛化能力,即超越已执行示例的表现。我们仅使用了两个训练场景,如图7所示,其中目标是抓取瓶子,同时避开支撑物体的桌子以及放置在目标旁边的盒子。我们对目标集离散化后的每个目标运行CHOMP,并记录最终的成本。图7显示了每个场景中产生最低成本的目标。随后,我们训练了一个神经网络,仅根据第3.1.1节中的前三个特征来预测该成本。
在测试中,我们将物体移动到了与训练样本中非常不同的位置,如图7所示。使用最近邻方法时,机器人会识别出一个最接近的训练场景,并从该场景的最佳最终轨迹初始化优化器。在这种情况下,所有轨迹都导向次优甚至与环境发生碰撞的目标。然而,轨迹属性方法使我们能够超越这些先前执行的轨迹。学习器预测图7右侧所示的目标将产生最低的成本。这一目标在训练样本中从未是最优的,但由于它远离杂乱区域,同时保持与起始构型较短的距离,学习器会认为它优于其他选择。实际上,当从指向该目标的直线轨迹初始化优化器时,最终成本仅比使用多次初始化目标集CHOMP到不同目标所找到的最佳路径高出1%。
4.2 泛化对训练-测试相似性的依赖
在下一个实验中,我们希望测试知识可以迁移到距离训练数据多远的情况。我们创建了一个测试情境,并让两个回归器(神经网络和高斯过程)在与该测试情境越来越不同的训练情境上进行训练。在图8中,我们绘制了这些情况下的性能,以成本相对于目标集CHOMP所能达到的最小值的下降百分比来表示—即使用直线轨迹初始化优化器并指向最佳目标时得到的最终成本。
这些性能是在15种不同的杂乱构型下取平均的结果,并与我们的基线进行比较:即如果不进行任何学习而随机选择一个无碰撞的目标会发生什么情况。
在第一种情况下,我们在相同的数据集上进行训练和测试。神经网络和高斯过程(GP)的表现均远优于无学习的基线方法。随后,我们略微改变情境:首先是杂乱配置发生变化,接着目标物体位置改变了约20厘米,然后是机器人的起点配置发生变化。在倒数第二次测试中,我们大幅改变了所有这些情境描述符,性能显著下降,尽管学习算法的表现仍优于基线。最后,我们表明训练集中更多的多样性可以带来更好的泛化能力。当我们增加训练集中的样本数量时——我们仍然在非常不同的情境下进行训练,但提供了更广泛的范围,包含更多可能的起始构型和目标姿态——我们注意到两个回归器的性能再次提升至约8%。随机选择基线当然未考虑这些数据,其表现保持不变,相较于最小成本性能下降约62%。
4.3 主实验
我们还希望对系统的日常性能进行真实评估,并确定第3.2节中哪种学习方法最适合我们的问题。学习器应该只关注最优目标,还是也应该关注次优目标及其性能?
我们创建了一组大规模的训练样本,包含90种不同起始构型、目标物体位姿和杂乱分布的情境。在每种情境中,我们从直线轨迹开始运行目标集CHOMP,针对离散化目标集中的每个无碰撞目标进行计算(共1154个示例),并记录最终代价。我们还创建了一个包含108种情境(1377个示例)的测试集,这些情境在所有三个组成部分上都与训练数据不同。
图9(左)显示了在所有测试情境中,五种方法相对于最小成本的平均成本退化百分比,这些方法来自第3.2节。实心柱状图表示算法的数据高效版本:回归器使用在独立验证集上确定的阈值,逆向最优控制使用结构化边际的成本距离,分类器也将接近最小值的目标预测为正类。透明柱状图表示这些方法的原始版本,其性能始终低于对应的数据高效版本。
表现最佳的是我们版本的数据高效的逆向最优控制——该算法侧重于预测专家行为,而非拟合成本,同时考虑真实成本,并确保对非专家行为的预测具有较低的成本。尽管逆向最优控制和线性回归都是线性方法,但逆向最优控制相对于线性回归的优势在于其专注于专家行为预测。非线性回归器的表现与逆向最优控制相似,其优势在于对数据的拟合更好。支持向量机使用线性核,侧重于低成本,因此其性能如预期般接近线性回归。
在这些实验中,我们对每个场景的目标集进行了相当细的离散化。我们不禁要问,是否可以减少目标的选择数量。图9(右)表明答案是肯定的:例如,使用5个目标时,我们就能更好地预测最小成本,而且该最小成本并不比考虑20个目标时的最小成本大很多。
5 结论
在本文中,我们提出放弃从库中预测轨迹的从经验中学习范式。相反,我们提出预测轨迹的重要属性,以将轨迹优化器的初始猜测置于良好的吸引域内。
我们通过聚焦一个非常重要的轨迹属性——目标的选择,迈出了实现这一预测范式的初步步骤。我们展示了学习器通过预测该属性能够实现良好的泛化能力,并给出了强调我们的学习框架在实际中重要性的实验结果。下一步是根据优化器以及机器人所处的当前情况,确定一组能够区分不同吸引域的属性。同时,我们必须改进优化器本身,以允许预测具有更大的灵活性。我们认为这是一个令人兴奋的挑战。
机器学习和操作将为基于机器人先验经验的更语义化、层次化的规划方式铺平道路。
4643

被折叠的 条评论
为什么被折叠?



