从人类反馈学习动态物体交接

原创于 2025-10-31 14:31:56 发布 · 405 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#机器人交接 # 人类反馈 # 策略搜索 # 奖励学习 # 动态交互

从人类反馈中学习动态机器人到人类的物体交接

1 引言

在不久的将来，机器人将成为人类值得信赖的助手，在家庭和工作场所提供各种服务。对这类机器人而言，一项基本但至关重要的能力是获取日常生活中常见物体，例如杯子或电视遥控器，并将其交接给人类。目前，机器人执行物体交接的方式非常有限：通常机器人将物体静态地保持在固定位置，等待人类取走。这种方式远未达到人类之间流畅交接的水平，对于需要机器人服务的老年人、年幼儿童或体弱者来说通常是不足够的。我们研究的长期目标是开发出能够使机器人在动态环境中进行流畅物体交接，并能根据人类偏好和物体特性进行适应的算法框架和实验系统。这项工作迈出了第一步，重点研究机器人在动态环境下交接水瓶（如图1所示），例如向行走的人分发传单或将水瓶递给马拉松运动员。

物体交接看似简单。人类是物体交接的专家。我们每天几乎毫不费力地进行多次交接，无需思考，并在各种不同的上下文中适应：

动态性 ：无论对方坐着、站着还是走动，我们都会将物体交接给他们。
物体特性 ：我们交接不同形状、重量和表面纹理的物体。
人类偏好 ：虽然典型的人类物体交接发生得非常快，但在向老年人或幼儿交接物体时，我们会调整策略并放慢速度。

然而，人类的成功掩盖了物体交接的复杂性，即在有限通信的两个智能体之间进行协作式物理交互的过程。由于我们甚至缺乏一个在各种上下文中适度全面且可靠的交接模型，因此手动编程实现具有相当鲁棒性和适应性的机器人交接面临着巨大挑战。

或者，机器人可以通过与人类互动并从经验中泛化来学习交接技能。在这项工作中，我们将学习任务表述为上下文策略搜索[19]。策略搜索是一种通用的强化学习方法，在具有多个自由度的机器人技能学习中已取得很大成功[11]。策略搜索算法对机器人的控制策略进行参数化，并通过最大化能够反映策略性能的奖励函数来寻找最优的参数值。上下文策略搜索引入了一组上下文变量，这些变量依赖于任务上下文，例如交接任务中的物体类型或尺寸，且策略参数会基于这些上下文变量进行条件化。

准确衡量策略性能的奖励函数对于策略搜索的成功至关重要。然而，手动设计一个好的奖励函数通常繁琐且容易出错，尤其是在学习物体交接任务时。目前尚不清楚哪些定量指标能够捕捉流畅的物体交接过程。为此，我们提出从人类反馈中学习潜在奖励函数。人类是物体交接的专家，能够轻松提供奖励反馈。然而，这种反馈通常带有噪声。为了增强对噪声的鲁棒性并避免过拟合，我们采用贝叶斯优化方法进行潜在奖励学习。重要的是，我们的学习算法同时支持absolute feedback，例如“这次交接是好还是坏？”，以及preference feedback，例如“这次交接是否比上一次更好？”。将潜在奖励学习与策略搜索相结合，形成了一种可直接从人类反馈中学习物体交接的整体性上下文策略搜索算法。我们的初步实验表明，机器人能够自然地学习水瓶的交接动作，并能适应人体运动动力学的变化。

2 相关工作

2.1 物体交接

物体交接长期以来从物理和社会认知两个角度引起了研究界的兴趣。关于交接的早期工作至少可以追溯到20世纪90年代[1, 21]。近期研究表明，物体交接在概念上包含三个阶段：接近、信号传递和转移[26]。这三个阶段不一定按顺序发生，可能会部分重叠。在第一阶段，给予者接近接收者并调整物体姿态，为交接做好准备[4, 20, 25]。在第二阶段，给予者和接收者相互发出信号并交换信息，通常通过非语言交流方式，如动作[12], 视线或头部朝向[13], 以建立交接的共同意图。在最后阶段，双方完成物体的物理转移。转移阶段可进一步分为两个子阶段，分别为给予者和接收者建立共同接触之前和之后。早期关于物体转移的研究通常假设一旦建立共同接触，物体即保持静止，并依赖于手工设计的控制器[1, 6, 14, 21]。我们的工作仅聚焦于最后的物理转移阶段。该算法直接从人类反馈中学习控制器。它不作物体静止的假设，适用于动态交接。物体转移是更一般的协作操作问题的一个实例[3]：它涉及两个具有有限通信的非对称智能体。

人与人之间的物体交接为交接性能提供了衡量标准。理解人类如何进行交接（例如，[5, 15]）为提升机器人交接性能铺平了道路。

2.2 策略搜索

近年来，通过策略搜索实现的机器人技能学习取得了巨大成功[11]。策略搜索算法通过最大化期望奖励，学习表示为参数化机器人控制器上概率分布的技能。为了使机器人技能能够适应不同情况，上下文策略搜索学习一种上下文策略，该策略根据上下文变量对技能进行条件化[8, 9, 19]。

为了表示机器人技能，策略搜索通常使用参数化控制器，例如dynamic movement primitives[16] 或 interaction primitives[2]。后者非常适合人机交互任务。而我们的工作则利用领域知识来构建参数化阻抗控制器。

为了学习机器人技能，策略搜索需要提供一个奖励函数来衡量学习性能。然而，设计一个良好的奖励函数通常很困难。一种方法是逆向强化学习（IRL），也称为逆向最优控制，它通过专家示范来学习奖励函数[22,24]。获取人类专家的示范可能十分困难或繁琐，特别是在针对机器人‐人类物体交接方面。

另一种方法是直接从人类反馈中学习，而无需人类专家示范。Daniel等人利用来自人类的奖励反馈来学习机器人手部操作技能[10]。Wilson等人考虑使用贝叶斯方法，基于轨迹偏好学习控制策略，而不依赖显式奖励反馈[27]。Jain等人从人类偏好中学习操作轨迹[17]。基于偏好的强化学习算法通常不使用绝对奖励反馈，而是仅依赖偏好反馈[28]。我们的算法在一个统一的贝叶斯框架中结合了绝对和偏好反馈，以学习奖励函数，并将其与策略搜索相结合用于机器人技能学习。

3 从人类反馈中学习动态交接

3.1 概述

假设机器人与人类已建立交接的共同意图。本文研究从机器人到人类的物体的物理转移。机器人控制器$u(\cdot ; \omega)$指定了在时间$t$（$t = 1, 2, …$）状态$x_t$下的控制动作$u_t$。该控制器$u(\cdot ; \omega)$由一组参数$\omega$参数化，符号中显式地表达了对$\omega$的依赖性。奖励函数$R(\omega)$分配一个实数，用于衡量控制器$u(\cdot;\omega)$的性能。为了处理交接过程中的动态特性，我们引入一个上下文变量$s$来表示人手速度，并将控制器参数$\omega$以$s$为条件，从而得到奖励函数$R(\omega, s)$。一般而言，上下文变量还可包括其他特征，例如人类偏好和物体特性等。上下文策略$\pi(\omega|s)$是在上下文$s$条件下的参数化控制器上的概率分布。

我们的目标是学习一种最大化期望奖励的上下文策略：
$$
\pi^* = \arg\max_\pi \int_s \int_\omega R(\omega, s)\pi(\omega|s)\mu(s) d\omega ds,
$$
其中$\mu(s)$是上下文上的一个给定先验分布。

上下文策略搜索通过迭代更新$\pi$，使分布向具有更高奖励的控制器集中。在每次迭代中，机器人学习器观察上下文$s$，并从分布$\pi(\cdot|s)$中采样一个参数值为$\omega$的控制器。它执行控制器$u(\cdot|\omega)$并观察奖励$R(\omega, s)$。重复实验$L$次后，利用收集到的数据${\omega_i, s_i, R(\omega_i, s_i)}_{i=1}^L$更新$\pi$，然后进入下一次迭代。整体的学习与控制架构见图2，我们的学习算法示意图见表1。

示意图0

图2 人机交接技能学习框架。机器人观察上下文$s$，然后使用策略$\pi(\omega|s)$对$\omega$进行采样。实验通过具有参数化$\omega$的机器人控制器执行。机器人控制器$u(x; \omega)$在给定机器人及其环境状态$x$的情况下提供确定性控制信号$u$。实验结束后，人类提供高层反馈$F$，该反馈用于估计潜在奖励$\hat{R}(\omega, s)$。最后，利用最新数据更新策略

表1	人机物体传递的学习框架
带人类反馈的C‐REPS算法	输入: 相对熵约束$\varepsilon$，初始策略$\pi(\omega

奖励函数$R(\omega,s)$在我们的算法中至关重要。然而，尽管已有大量关于人与人之间的物体交接的实证研究[4, 5, 15, 26]，手动设计一个适用于学习物体交接的良好奖励函数仍然十分困难。

我们提出从人类反馈中学习奖励函数$R(\omega,s)$。具体而言，我们允许使用绝对反馈和偏好反馈两种形式的人类反馈。绝对反馈在1到10的绝对尺度上直接评估机器人控制器性能。偏好反馈则相对地比较一个控制器与另一个控制器的表现。虽然前者具有更高的信息量，但后者通常更易于人类判断。我们采用贝叶斯方法，并应用高斯过程回归进行潜在奖励估计。所学习到的奖励模型$\hat{R}(\omega,s)$能够泛化人类反馈数据。它可对任意采样的$(\omega,s)$提供估计奖励，而无需附加实验，并大幅减少学习良好策略所需的机器人实验数量。

3.2 表示物体交接技能

在本节中，我们将讨论如何编码交接技能以及参数$\omega$所指代的内容。在我们的研究中，使用轨迹生成器、机器人臂控制器和机器人手控制器来编码交接技能。轨迹生成器为机器人末端执行器提供参考笛卡尔坐标以供遵循。在机器人学习任务中，通常使用运动原语（MP）通过有限数量的参数来编码轨迹。运动原语（MP）在笛卡尔空间或每个自由度的关节空间中编码轨迹的形状、速度和幅度。尽管运动原语（MP）能够编码多种多样的技能，但它们通常需要调节更多的参数，这可能会减慢学习过程。

然而，对于交接任务，我们可以利用人类专家知识来定义机器人手部轨迹。这种方法能够以更少的参数实现对轨迹生成器的紧凑表示，从而简化调参过程。此外，我们可以通过缩小机器人的工作空间来提高安全性，并能够更容易地与人体运动同步。在我们的实验中，我们使用Kinect传感器的视觉数据，该传感器用于追踪人手的右手。一旦人手与机器人手之间的距离小于$d_{max}$，机器人便将物体移向人手位置。我们假设路径规划器会计算从当前机器人手部位置到人手位置的参考轨迹，并在每次人手位置更新时重新更新该参考轨迹。当人手与机器人手之间的距离小于$d_{min}$时，由于可能存在遮挡和测量误差，我们将不再使用视觉信息。相反，我们会利用记录的视觉数据预测接下来一秒内人手的轨迹，此时很可能发生物理交互。参数$d_{min}$和$d_{max}$的取值可能取决于多种因素，例如实验设置、机器人配置等。

为了确保鲁棒的人机交接，我们需要允许柔顺机器人臂运动。我们使用笛卡尔阻抗控制[3]，其中在末端执行器坐标系中施加的力和力矩组合而成的广义力$F_{6\times1}$根据公式$F = M\Delta\ddot{x} + D\Delta\dot{x} + P\Delta{x}$计算，其中$\Delta{x} {6\times1}$是相对于参考轨迹的偏差。增益参数$M$、$D$和$P$将决定施加的力和力矩的大小。通常将$M$替换为当前状态下的机器人惯性。我们选择阻尼$D$使得闭环控制系统处于临界阻尼状态。我们使用对角刚度矩阵$P = \text{diag}([p_T, p_r])$，其中$p_t$是平移刚度，$p_r$是旋转刚度。最后，施加的扭矩指令为$\tau = J^T F + \tau {ff}$，其中$J$是机器人雅可比矩阵，$\tau_{ff}$是用于补偿重力和其他非线性效应的前馈扭矩。

受人类之间交接实验最新研究的启发，已提出一种机器人握力控制器$F_g = kF_l + F_{ovl}$，其中$F_g$为指令抓握力，$F_l$为测量得到的负载力，$F_{ovl}$为预设过载力。斜率参数$k$取决于物体的属性，例如质量、形状和材料属性。使用该控制器时，当机器人上的总负载力低于阈值时，机器人将释放物体。对于仅具有手指位置控制的机器人手，我们无法使用上述控制方法。相反，我们通过识别仍能夹持物体的最小抓握力对应的手指位置，直接命令手指位置。然后，我们使用控制律使手指位置随负载力$f_{pos} = f_{min} + mF_l$线性变化。$m$的值取决于多种因素，例如物体类型、重量和其他材料属性。

在学习物体交接时，我们调整控制架构的7个参数。对于轨迹生成器，我们调整最小和最大跟踪距离$d_{min}$和$d_{max}$。对于柔顺臂控制器，我们学习平移刚度参数以及用于所有旋转刚度值的一个参数。最后，对于手指控制器，我们调整斜率参数。所有这些参数都被收集在$\omega_{7\times1}$中。

3.3 估计潜在奖励函数

在本节中，我们提出一种基于先前工作[7]的贝叶斯潜在奖励估计技术。假设我们观察到一组样本${s_i,\omega_i} {i=1}^E$和人类反馈${F_i} {i=1}^E$，其中$F_i = \tilde{R}(y)$，表示在上下文$s_i$中人类对参数化$\omega_i$给出绝对评价（记为$\tilde{R}$），$y = [s^T,\omega^T]^T$。

对于偏好反馈，若$y_k$比$y_i$更受偏好，则记为$F_i = y_k \succ y_i$。注意，对于给定的样本，可能存在偏好反馈和绝对评价两种情况。

我们将潜在奖励上的先验分布定义为高斯过程$\hat{R} \sim \mathcal{N}(0, K)$，其中$K_{ij} = k(y_i, y_j)$。不失一般性，我们假设先验均值为0，但也可以利用专家知识构建更具信息性的先验。基于偏好的反馈的似然函数为$p(y_i \succ y_j|\hat{R}) = \Phi((\hat{R} i - \hat{R}_j)/(\sqrt{2}\sigma_p))$[7]，其中$\Phi(\cdot)$是$\mathcal{N}(0, 1)$的累积分布函数，$\sigma_p$是一个用于解释反馈噪声的噪声项。对于绝对反馈数据，我们简单地将其似然函数定义为$p(\tilde{R}_i|\hat{R}) = \mathcal{N}(\hat{R}_i, \sigma_r^2)$，其中$\sigma_r^2$表示绝对人类反馈的方差。最后，潜在奖励的后验分布可以近似为
$$
p(\hat{R}|D) \propto \prod {i=1}^N p(y_{i,1} \succ y_{i,2}|\hat{R}) \prod_{j=1}^M p(\tilde{R} j|\hat{R}_j, \sigma_r^2)p(\hat{R}|0, K),
$$
其中我们使用了符号$p(y {i,1} \succ y_{i,2}|\hat{R})$来强调$F_i$是一个比较$y_{i,1}$和$y_{i,2}$的偏好反馈。为了寻找最优潜在奖励，我们进行最小化
$$
J(\hat{R}) = -\sum_{i=1}^N \log\Phi(z_i) + \frac{\sigma_r^{-2}}{2} \sum_{j=1}^M (\tilde{R} j - \hat{R}_j)^2 + \hat{R}^T K^{-1} \hat{R},
$$
其中$z_i = (\hat{R}(y {i,1}) - \hat{R}(y_{i,2})) / (\sqrt{2}\sigma_p)$。文献[7]表明，在仅有基于偏好的反馈（$M = 0$）的情况下，关于$\hat{R}$最小化$J$是一个凸问题。然而，容易看出，当$M > 0$时，$J(R)$的Hessian矩阵仅会在对角线上增加非负元素，从而保持Hessian矩阵半正定，问题仍为凸问题。核函数$\theta$的超参数以及噪声项可以通过最大化证据$p(D|\theta, \sigma_p, \sigma_r)$来优化。尽管该证据无法以闭式表达，但我们可以通过拉普拉斯近似对其进行估计。

值得注意的是，当仅有偏好反馈时，即$M=0, N>0$，我们得到的算法与[7]中的完全相同。在另一个极端情况下，当仅有绝对反馈（$M>0, N=0$）时，我们得到高斯过程回归，其为$p(R)$提供了闭式解。总体而言，我们的扩展提供了一个在统一的贝叶斯框架中混合偏好反馈和绝对反馈的机会。

此外，请注意，在获得$p(R)$后，我们可以使用贝叶斯线性回归来查询未见过的样本$y^ $[7, 23]的期望奖励$R^ $。我们可以利用由此得到的奖励生成模型，对当前控制分布$y \sim \mu(s)\pi(\omega|s)$中的大量样本查询奖励，而无需进行真实实验评估。这种数据高效的基于模型的方法已被证明可将所需实验次数减少多达两个数量级[10, 19]。

3.4 上下文相对熵策略搜索

为了更新策略$\pi(\omega|s)$，我们依赖于相对熵策略搜索[11, 19]，或C‐REPS的上下文扩展。C‐REPS的直观思想是在联合上下文‐控制参数分布上最大化期望奖励，同时保持与观测数据的接近性，以平衡探索与经验损失。C‐REPS使用一种信息论方法，其中连续参数分布之间的相对熵被限制为$\int_{s,\omega} p(s,\omega) \log \frac{p(s,\omega)}{q(s,\omega)} dsd\omega \leq \varepsilon$，其中$p(s,\omega)$和$q(s,\omega)$分别表示更新后的和先前使用的上下文‐参数分布。参数$\varepsilon \in \mathbb{R}^+$是相对熵的上界。由此产生的约束优化问题可通过拉格朗日乘子法求解（例如见[18]）。新分布的闭式解为$p(s,\omega) \propto q(s,\omega) \exp((R(\omega,s) - V(s))/\eta)$。此处，$V(s)$是一个上下文相关基线，而$\eta$和$\theta$是拉格朗日参数。该基线在某些上下文特征上线性表达，并由$\theta$参数化。为了更新策略，我们将计算得到的概率$p(s,\omega)$作为样本权重，并对策略模型参数进行最大似然估计。

示意图1

图3 实验的机器人设置。我们使用配备三指Robotiq机器人手的7自由度库卡LBR臂。我们使用Kinect来跟踪人手动作

4 实验

在交接实验中，我们使用7自由度库卡LBR臂（图3）。机器人手部采用Robotiq三指手。手指采用位置控制，但可通过限制手指电流间接调节最大抓握力。为了准确测量外部的力和力矩，安装了腕部安装的力/扭矩传感器。

4.1 实验设置

实验执行过程如下。首先，将一个1.5升水瓶放置在固定位置，机器人被编程以拾取该瓶子。随后，机器人将瓶子移动到预定义的位置。此时我们启用柔顺臂控制，并使用Kinect传感器（图3）来跟踪人类的手部。接着，人类向机器人移动以取走瓶子。在接近机器人的过程中，我们利用Kinect数据估计人类的手部速度$s$，并假设该速度在实验期间保持恒定。我们仅在人类距离机器人较远（超过1米）时使用数据，以避免遮挡。在上下文变量估计完成后，机器人通过抽样控制器参数化$\omega \sim \pi(\omega|s)$来设定其参数。随后，机器人与人类发生物理接触，交接过程完成。最后，人类对机器人性能进行评价（在1‐10分制上进行偏好或绝对评价，其中1为最差，10为最好），然后离开，以便开始下一次实验。

我们在表1中给出了学习算法的伪代码。作为算法的输入，我们需要提供初始策略$\pi(\omega|s)$以及若干其他参数。我们使用高斯分布来表示策略$\pi(\omega|s) = \mathcal{N}(\omega|a + As,\Sigma)$。在学习开始时，我们设置$A=0$，即机器人在所有可能的上下文值上使用相同的控制器分布。在学习过程中，策略的所有参数（$a$、$A$、$\Sigma$）将根据C‐REPS更新规则进行调整。

初始策略均值$a$和协方差矩阵的对角元素$\Sigma$设置如下：对于旋转刚度，均值设为2.75 牛·米/弧度，方差为$0.5^2$；对于手部坐标系中$x$、$y$和$z$方向的平移刚度参数（图4），分别选择275、450、275 N/m，对应的方差分别为$50^2$, $75^2$, 和$50^2$；对于手指控制斜率参数，选择2.5 1/N，方差为$0.5^2$，这可确保对水瓶实现牢固抓握。在人手产生的力达到瓶子重量的一半之前，机器人不会移动手指。当斜率参数为0时，机器人施加的抓握力最小，但仍能支撑瓶子；当斜率参数大于5时，只有当人类能够支撑1.2×倍物体重量时，机器人才会释放瓶子。因此，即使使用初始策略，也能避免物体掉落。最后，将轨迹跟踪控制距离的最小和最大值的均值分别设为200和600 mm，对应的方差选择为$50^2$和$150^2$。因此，参数初始化为$a=(2.75, 275, 450, 275, 2.5, 200, 600)^T$，$A=0$和$\Sigma=\text{diag}(0.5^2, 50^2, 75^2, 50^2, 0.5^2, 50^2, 150^2)$。

对于表1中的C‐REPS学习算法，我们选择了$\varepsilon=0.75$，并在评估了$L=10$次人机传递实验后更新策略。然而，在第一次策略更新之前，我们使用了$L=40$次交接实验，以获得对潜在奖励的可靠估计。在每次策略更新之前，我们会为所有先前观测到的实验${\omega_i, s_i, F_i}_{i=1}^E$估计潜在奖励。其中，$E$表示观测样本的总数。注意，$E$在每次策略更新前会因新增的$L$次最新实验而增加。因此，$E$代表了我们为达到某一性能水平所使用的实验评估量或信息量。在估计出潜在奖励后，我们使用得到的生成式奖励模型来评估从$\hat{\mu}(s)\pi(\omega|s)$中抽取的$Q=500$个人工上下文‐控制参数对。我们利用这些人工样本进行策略更新。通过这种方式，我们得到了一种高数据效率算法，类似于[19]中的方法。策略被更新后，我们开始一个新循环并评估$L$个新实验。我们不仅利用这些信息更新字典以估计潜在奖励，还用于估计当前策略的性能。策略的性能通过新评估的$L$次实验的期望潜在奖励来衡量。我们预期该性能指标将随着信息量$E$和策略更新次数的增加而提升。在策略更新$H$次（表1）后，我们终止学习过程。

示意图2

图4 机器人手部坐标系方向

图5 5次独立学习试验中预期潜在奖励均值和标准差

4.2 结果

由于学习算法使用随机采样数据进行策略更新以及嘈杂的人类反馈，学习得到的策略及其性能可能会有所变化。为了衡量学习过程的一致性，我们重复了多次完整的学习试验。一次试验是指从初始策略和空字典开始评估学习算法$E=0$，但对$L$和$\varepsilon$使用相同的参数。我们评估了5次学习试验，并记录了每次策略更新前机器人的预期性能。图5展示了基于5次试验的预期学习性能及其95%置信区间随用于策略更新的真实机器人实验次数的变化情况。我们可以看到，学习确实提升了初始策略的性能，该初始策略的期望值为6.8。在学习过程中，我们注意到人类主要对非常好或非常差的解决方案给出绝对反馈。这是符合预期的，因为人类可以明确判断交接技能是否接近人类水平，或者是否存在不自然的行为（例如未释放物体）。到学习结束时，期望潜在奖励上升至8左右。需要注意的是，不同试验之间学习性能的方差不仅取决于学习方法的随机性，还受到嘈杂人类反馈的影响。因此，我们可以得出结论：学习确实提高了策略的期望潜在奖励，但策略本身以及实验过程在学习过程中发生了怎样的变化？

学习得到的策略 。我们首先讨论学习得到的策略的均值$a$，然后展示该策略如何推广到更具动态性的任务中。在多次学习试验中，我们观察到高质量的策略相比手动调优的初始策略提供了更低的旋转刚度。我们发现，从期望值来看，学习得到的旋转刚度为1.29牛·米/弧度，低于初始的2.75。这有助于机器人在与人手发生物理接触时快速调整物体的方向。我们在平移刚度值中也观察到了类似的行为，体现在$x-z$方向（见图4）。学习得到的值比初始值低了近100 牛/米。这有助于机器人在水平动作中更具顺从性。有趣的是，学习后$y$方向的刚度相比初始值略有增加（474 牛/米）。在物理交互过程中，沿$y$轴作用的力主要负责支撑物体的重量。更高的刚度值使交互时间降低，也有助于避免机器人未释放物体的情况。学习得到的手指控制器的斜率参数变得更加保守（3.63 1/N）。这能防止手指在人类施加的力达到物体重量的至少0.8×之前发生任何移动。最后，学习得到的最小和最大跟踪距离的期望值分别为269毫米和541毫米。

该策略通过均值$a+As$对控制器参数化进行泛化。我们之前讨论了学习后$a$在期望上的变化。现在我们将注意力转向$A$，并展示如何实现向更具动态性任务的泛化。我们通常在手部速度介于0.1至1 m/s之间的情况下执行实验。我们观察到，在更具动态性的任务中（$s=1$m/s），旋转刚度值在期望上降低至−0.31牛·米/弧度，这有助于机器人更快地与人手对齐。有趣的是，我们观察到$x$方向的刚度略有增加，达到56 牛/米；然而，$y$方向的刚度显著下降至−281牛/米，这在更快速的物理交互过程中显著减小了作用于人类身上的力。$z$方向的刚度下降至−10牛/米，这一变化较小。有趣的是，机器人手指控制器的斜率参数增加了0.6 1/N，从而实现了更加保守的手指控制。最后，我们观察到，最小手部跟踪距离在期望上增加了46 毫米，而最大距离几乎保持不变，仅额外增加了9 毫米。学习到的参数相对于上下文的可视化表示见图6。

图6 初始和学习后的策略参数随上下文值的变化。顶行，从左到右：旋转刚度、x-y-z方向的平移刚度。底行，从左到右：手指控制斜率、最小和最大视觉手部跟踪距离

图7 两个物理交互过程中人类与机器人之间作用力的实验结果示例。这些力从物理交互开始前绘制，直到交接完成为止

图8 动态交接情况下的两个实验结果示例。力的曲线从物理交互开始前绘制，直到交接完成为止

人类对静态交接的偏好 。对于静态交接任务，我们观察到鲁棒且快速的手指控制始终受到偏好并获得高评分。在图7中，我们可以看到两种典型静态交接方案的力和平移加加速度。瓶子的重量约为15牛顿。可以看出，受偏好的方案始终维持低加加速度，且力保持在有限范围内。此外，成功交接发生得相对较快。在我们的实验中，我们观察到高质量的交接发生在0.6秒内，但不快于0.4秒。类似的结果已在人类之间的物体传递实验中报道[5]。通常不受欢迎的参数化方法具有低平移刚度和僵硬的手指控制，导致机器人未能及时释放物体，被视为失败。这些实验通常持续1‐2秒，直到瓶子被释放。

人类偏好动态交接 。在动态交接情况下，接触力和加加速度明显高于静态情况（图8）。一种典型的偏好动态交接控制器具有较低的旋转和线性刚度，以及更稳固的手指控制器。在我们的实验中，人类始终从一个方向从机器人手中取走瓶子。在机器人手部坐标系中，这是$x$方向。如我们所见，偏好的控制器在此方向上实现了显著更低的接触力和急动度。我们注意到，动态交接场景中的物理接触时间约为0.3–0.6秒。根据潜在奖励，我们发现人类明显偏好更快的交接，而在静态情况下，在0.6秒内的交接并未观察到如此强的相关性。有趣的是，我们注意到人类在动态交接中更倾向于刚性更强的手指控制器。我们推测这有助于物体从给予者到接收者的鲁棒传递。在动态交接过程中，视觉可能无法在物理接触期间提供足够的关于交接状态的反馈，因此需要额外的抓握力来确保鲁棒传递，并补偿不准确的位置控制。

学习前后一些典型实验的视频片段可在www.youtube.com/watch?v=2OAnyfph3bQ获取。

通过分析这些实验，我们可以看到学习得到的策略确实提供了一种控制器参数化方法，能够在多种动态情况下减少交接时间，并降低作用在人类身上的力和加加速度。尽管初始策略在较不剧烈的实验中表现出合理的性能，但学习与泛化显著提升了策略的性能。根据我们的观察，在静态交接中，快速平稳的手指控制对于成功至关重要；而在动态交接情况下，则更偏好更高顺应性和稳固的手指控制。

5 讨论

本文提出了一种从人类反馈中学习动态机器人到人类物体交接的算法。该算法通过绝对和偏好反馈学习潜在奖励函数，并将奖励学习与上下文策略搜索相结合。实验表明，机器人能够适应人体运动动力学，并学会成功交接水瓶，即使在高度动态的情况下也能实现。

当前工作存在若干局限性。首先，它仅在单一物体和少量人员上进行了评估。我们计划将学习算法推广，以适应人类偏好和物体特性。虽然上下文策略搜索在适应交接动力学方面表现良好，但物体特性表现出更大的变异性，可能带来更大挑战。其次，我们的交接策略也未考虑交接过程中的人类反应或其随时间的变化。我们希望对人类反应的关键特征进行建模，并利用这些特征实现有效且流畅的交接。对于上述两点，结合无模型学习与基于模型的规划似乎是值得探索的有益方向。