86%成功率！斯坦福DexUMI：以人手为通用操作界面，实现灵巧操作

最新推荐文章于 2025-07-03 14:15:35 发布

深蓝学院

最新推荐文章于 2025-07-03 14:15:35 发布

阅读量558

点赞数 10

CC 4.0 BY-SA版权

文章标签：机器人斯坦福

本文链接：https://blog.youkuaiyun.com/soaring_casia/article/details/148798802

推荐语

该工作提出了 DexUMI —— 一个利用人手作为自然接口，将灵巧操作技能迁移到各类机械手的数据收集与策略学习框架。DexUMI 包括硬件和软件适配，旨在最大限度地缩小人手与各类机械手之间的本体差异（embodiment gap）。通过可穿戴手部外骨骼（wearable hand exoskeleton）进行硬件适配，从而弥合了运动学差异（kinematics gap）。在操作数据收集的过程中接收直接触觉反馈数据，并能将人手的动作调整为适合机械手的可行动作。通过采用用高保真的机械手图像修复替换视频数据中人手的画面进行软件适配，从而弥合了视觉差异（visual gap）。在两种不同型号的灵巧机械手硬件平台上通过全面的真实世界实验，展示了 DexUMI 的能力，取得了平均 86% 的任务成功率。推荐阅读

原文链接：86%成功率！斯坦福DexUMI：以人手为通用操作界面，实现灵巧操作

人手在各类任务中展现出极其灵巧的能力。设计灵巧手机器人的初衷，正是希望复制这种能力。然而，由于人手与机械手之间存在显著的本体差异（embodiment gap），将人类技能迁移至机器人系统仍面临巨大挑战。这种差异具体表现为多方面的不匹配，例如运动学结构差异、接触面形状差异、可用触觉信息差异，以及视觉外观差异。

远程操作（teleoperation）已成为灵巧手的主流操控接口，但其应用仍面临两大障碍：空间观测错位（spatial observation mismatch）以及直接触觉反馈的缺失（lack of direct haptic feedback）。这些问题在人类直接执行操作任务时并不存在。如此，便产生了这样的问题：

如何最小化本体差异（embodiment gap），从而将人手作为各类机械手的通用操作接口？

为解决该问题，该研究提出了DexUMI 框架——该框架通过硬件与软件适配组件，专为弥合操作差异（action gap）与观测差异（observation gap）而设计。

硬件适配采用可穿戴手部外骨骼的形式实现。用户穿戴该设备后可直接采集操作数据。此外，该外骨骼还通过针对每款目标机械手专门设计了硬件优化框架：在确保人手可穿戴性的前提下，通过精调外骨骼参数（如构件长度），使其能精确匹配机械手指的运动轨迹。该硬件适配方案具有以下好处：

• 具有直接触觉反馈的直观人手示范：

与遥操作系统不同，可穿戴外骨骼无空间错位问题，允许用户在操作过程中直接接触物体，无需依赖真实机器人即可完成示范过程。

• 记录机械手可行运动轨迹：

外骨骼通过约束人手动作，使其匹配目标机械手的运动学特性（kinematics），确保记录的动作可直接迁移。

• 精确捕获关节动作：

不同于动作重定向方法，本外骨骼直接读取编码器关节角度数据，消除了基于视觉的指尖跟踪误差。

• 匹配模型训练所需的触觉信息：

目前多数用于数据采集的手持夹爪装置无法记录触觉信息，而这篇研究在指尖附加触觉传感器，使得所记录信息与机械手传感器完全一致。

此外，软件适配采用数据处理流水线（data processing pipeline）的形式，旨在弥合人类示范与机器人部署之间的视觉观测差异（visual observation gap）。该流水线首先通过视频分割技术从示范视频中移除人手和外骨骼，随后通过高保真图像修复技术将目标动作对应的机械手与环境背景无缝嵌入视频帧之中。该适配方案确保即使存在人手机械形态差异，在训练阶段与机器人部署阶段时，模型的视觉输入仍保持高度一致性。

通过硬件与软件的双重适配层，DexUMI 能够在最小化运动学差异与视觉差异的前提下，完成多类任务的数据采集并将技能迁移至机器人系统。在两款灵巧手硬件平台上进行了全面实验验证：6自由度Inspire机械手和12自由度。该方案的数据采集效率达到遥操作的3.2倍，且在包含长时序多指协同接触的四类任务中实现平均86%的成功率。

图1｜DexUMI 通过可穿戴外骨骼（wearable exoskeletons）与数据处理框架，将人类灵巧操作技能迁移至多样化机械手平台。在欠驱动机械手（如Inspire）与全驱动机械手（如XHand）上验证了该框架对多样化操作任务的迁移能力与实效性。

图2 ｜外骨骼设计方案：优化后的外骨骼设计在保障佩戴适人性的前提下，与目标机械手共享完全相同的关节-指尖位置映射关系。该系统通过编码器精准捕获关节动作，采用150°对角线视场角（DFoV）摄像头记录高信息密度的视觉观测数据，并利用刚性固定的iPhone配合ARKit实现手腕位姿追踪。

外骨骼结构设计

现代机械手通常在解剖结构上高度模拟人手，这意味着手部外骨骼会与佩戴者的人手产生空间冲突。该设计的核心难点在于拇指结构：其旋前-旋后运动（pronation-supination movement）具有大范围活动特性，易导致人手拇指与简单设计的外骨骼发生碰撞。为此，外骨骼设计需实现双重目标：

关节动作映射一致性：外骨骼与目标机械手必须共享相同的关节-指尖位置映射关系（包含运动限位），以确保动作可迁移性。

佩戴舒适性：外骨骼需确保用户手部能充分地执行自然运动。

尽管第一个目标（关节动作映射一致性）可通过数学方法明确定义，但佩戴舒适性的目标难以具体量化。研究人员提出的解决方案是：将外骨骼设计参数化，并将佩戴舒适性要求转化为对设计参数的约束，继而通过优化求解达到在保障运动学关系的前提下实现佩戴舒适性的目的。为使优化可行，优先保证指尖连杆的运动学精度，而对较少接触物体的连杆给予更大运动学特性设计自由度。

图3｜优化机制：为避免人手拇指与外骨骼发生碰撞，硬件优化步骤允许我们将外骨骼拇指基座后移，同时在SE(3)空间中保持原始指尖位姿与关节映射关系

设计方案分为以下几个步骤：

E.1 设计初始化：

基于URDF文件（参见图3）对机械手模型进行设计参数初始化。若缺乏详细机械设计（如Inspire-Hand的指部机构），则采用同等自由度的通用连杆机构（例如四杆机构）进行等效替代，并通过优化算法求解与实际观测运动特性最匹配的设计参数。

E.2 两阶段优化目标：

优化目标是最大化如下的相似度 $\max_{\mathbf{p}} S(W_{\text{exo}}^{\text{tip}}(\mathbf{p}), W_{\text{robot}}^{\text{tip}})$ ：

$\begin{aligned} S(W_{\text{exo}}^{\text{tip}}(\mathbf{p}), W_{\text{robot}}^{\text{tip}}) = - \Big( \sum_{k=1}^{K} \min_{\theta_{\text{exo}}} || \mathcal{F}_{\text{exo}}^{\text{tip}}(\mathbf{p}, \theta_{\text{exo}}) - \mathcal{F}_{\text{robot}}^{\text{tip}}(\theta_{\text{robot},k}) ||^2 \\ + \sum_{n=1}^{N} \min_{\theta_{\text{robot}}} || \mathcal{F}_{\text{exo}}^{\text{tip}}(\mathbf{p}, \theta_{\text{exo},n}) - \mathcal{F}_{\text{robot}}^{\text{tip}}(\theta_{\text{robot}}) ||^2 \Big) \end{aligned}$

其中 $W_{\text{exo}}^{\text{tip}}$ 和 $W_{\text{robot}}^{\text{tip}}$ 分别代表着外骨骼和机械手手指尖的工作空间(手指尖所有可能的姿态集合)， $\mathbf{p} = \{j_1, \dots, j_n, l_1, \dots, l_m\}$ 是包括关节在手腕参考系的坐标 $j_i \in \mathbb{R}^3$ 以及连接杆长度$l_j$在内的外骨骼设计参数。函数 $S(\cdot, \cdot)$ 代表两个工作空间的相似度，这可以量化外骨骼指尖位姿分布与机械手实际分布间的匹配紧密程度。而在实际实现中，函数 $S(\cdot, \cdot)$ 通过从双方工作空间中采样来求解最值。 $\mathcal{F}_{\text{exo}}^{\text{tip}}$ 与 $\mathcal{F}_{\text{robot}}^{\text{tip}}$ 分别表示外骨骼与机械手的前向运动学函数。优化第一项旨在通过寻找最接近机械手构型的外骨骼构型，驱动外骨骼覆盖机械手的工作空间。而第二项约束 $W_{\text{exo}}^{\text{tip}}(\mathbf{p}) \subseteq W_{\text{robot}}^{\text{tip}}$ ，确保外骨骼指尖工作空间始终位于机械手可达空间范围内，从而避免生成超出机械手可达范围的位姿。

E.3 约束：

应用边界约束$j_i \in C_i$与$l_j^{\min} \leq l_j \leq l_j^{\max}$, 这些参数经经验性选取以确保外骨骼可舒适佩戴。例如, 在MANO 模型框架下, 需将拇指摆动关节沿x轴向腕部方向移动, 以避免人手拇指的旋前-旋后运动与外骨骼结构发生碰撞。

传感器集成

外骨骼搭载的传感器需满足以下设计目标：

1. 捕获完备信息：传感器必须捕获策略学习所需的全部信息，包括：机械动作信息，如关节角度与手腕运动和环境感知信息，视觉观测与触觉感知。

2. 最小化本体差异：传感器信息在人类示范与机器人部署间的分布偏移需最小化。

S.1 关节运动捕捉与映射

为实现关节动作的精准捕捉，本外骨骼在每个驱动关节处集成关节编码器——针对XHand与Inspire-hand均采用电阻式位置编码器（resistive position encoders）。选用阿尔卑斯编码器（Alps encoder）以满足尺寸与精度需求。

受关节摩擦与电机回差影响, 外骨骼关节编码器值 $\theta_{exo}^{i}$ 与机械手电机值 $\mathcal{M}_{robot}^{i}$ 间存在非线性映射。为此, 通过为每个关节训练回归模型实现映射关系的标定。

S.2 手腕位姿追踪

通过使用iPhone ARKit捕获6自由度手腕位姿，智能手机作为目前最普及的设备，能够提供精确的空间追踪能力。该追踪设备仅需用于数据采集阶段，无需在机器人部署阶段使用。

S. 3 视觉观测系统：

研究人员在腕部下侧为外骨骼及目标机器人灵巧手配置了150°对角线视场角（DFoV）的广角摄像头OAK-1。此布局旨在有效捕获手-物交互动作，使得外骨骼与机械手的摄像头在腕部坐标系中保持完全一致的位姿，从而确保训练与部署阶段的视觉一致性。

S. 4 触觉感知系统：

研究人员设计的可穿戴外骨骼支持用户直接接触物体并接收触觉反馈，但此类人体触觉反馈信息无法直接迁移至灵巧手机器人。因此，需要研究人员在外骨骼上安装触觉传感器，以捕获并转化此类触觉交互信息。为确保传感数据一致性，在外骨骼搭载的触觉传感器型号与目标机械手完全匹配——XHand配置设备原装的电磁式触觉传感器；而在Inspire-Hand系统中，研究人员为外骨骼与机械手统一安装同款电阻式力敏传感器（Force Sensitive Resistor）。

图｜4 视觉差异补偿流程：研究人员为将视觉观测转化为策略训练数据，首先采用SAM²分割外骨骼图像(b)，继而修复缺失背景(c)；同步重放对应关节动作(a)至灵巧手生成机械手图像(d)，通过SAM²提取机械手掩膜(e)；通过外骨骼掩膜(b)与机械手掩膜(e)的交集运算(f)定位交互过程中的手部可见区域，最终将可见机械手区域(g)替换至修复后的背景(c)中。

图4展示了人类示范场景(a)与机器人部署场景(h)之间的视觉差异。为弥合这一差异，研究人员开发了数据处理流水线，将示范图像适配为由机械手采集的数据视图。该适配方案采用现成的预训练模型以确保通用性，具体包含以下四个步骤：

V. 1 人手及外骨骼分割：

研究人员首先采用SAM²模型对观测视频中的人手和外骨骼执行分割操作（图4b）。由于SAM²需初始提示点输入，研究人员制定规范要求操作员始终以相同手势开始操作，从而实现所有示范视频中提示点的重复使用。

V. 2 环境背景修复：

研究人员通过分割结果去除图像数据中的人手及外骨骼像素，随后采用基于光流的修复方法ProPainter对缺失区域进行完整重建（图4c）。

V. 3 机械手视频录制：

研究人员将记录的关节动作数据重放至机械手系统，录制仅包含机械手的独立视频（图4d）；此过程不涉及机器人手臂动作。随后复用SAM²提取机械手像素信息（图4e）并剔除背景。需说明的是，虽可训练图像生成模型基于动作输出机械手图像，但该方法需对模型进行额外训练。

V. 4 合成机器人演示。

最后一步是将仅含修复背景的视频与仅含机器人手臂的视频进行合成。这个过程中间，保持正确的遮挡关系至关重要：机器人手臂并不总是出现在最上层。研究人员研发了一种基于以下两点的感知遮挡合成方法：(1) 一致的手腕下方摄像头设置，以及 (2) 外骨骼与机器人手臂在运动学和形状上的相似性。通过求取外骨骼掩码与机器人手臂掩码的交集来计算一个可见掩码（图 4f）。这并不会简单粗暴地覆盖像素，而是仅当像素存在于可见掩码中时，才选择性地用机器人手臂像素替换修复后观测图像中的对应像素。在从手腕下方的摄像头视角观看时，保留了手臂与物体之间自然的遮挡关系。这种方法生成了视觉连贯的机器人操作演示，并维持了正确的空间关系。

模仿学习: 研究人员提出的模仿学习策略 $p(a_t | o_t, f_t)$ 将处理后的视觉观测 $o_t$ 和触觉传感 $f_t$ 作为输入。其输出是一个长度为 $L$ 的动作序列 $\{a_t, \dots, a_{t+L}\}$ ，该序列从当前时间 $t$ 开始，记作 $a_t$ 。机器人动作 $a_t$ 包含一个 6 自由度的末端执行器动作和一个 $N$ 自由度的机械手动作，其中 $N$ 取决于特定机器人硬件的机械手配置。

研究人员通过两种不同的机械手（Inspire Hand (IHand)，XHand）在4个不同的任务上（Cube，Egg Carton，Tea，Kitchen）对DexUMI进行了评估，评估结果见下表

表 1｜实验评估结果：研究人员统计了分阶段累计成功率。实验比较了以下要素的不同组合方案：手指动作表征方式（绝对式vs相对式）、触觉反馈（启用vs停用）以及视觉渲染方法（修复法vs掩码法/原始法）。

实验发现

DexUMI 框架支持高效的灵巧手策略学习：如表 1 所示，该 DexUMI 系统在两个机器手上执行四项任务时均达到了很高的成功率。这表明该套系统能够处理精确操作、长视域任务以及多指接触任务，同时能在多样化的操作场景中进行有效地泛化。

相对手指轨迹对噪声和硬件缺陷具有更强鲁棒性：如表 1 所示，相对式手指轨迹在所有任务中持续取得更高的成功率。图 6 进一步揭示：相对轨迹能使关键接触事件更可靠。研究人员推测产生这种差异的两点原因：

1. 相对动作的分布比绝对式更简单，因而更易学习；

2. 相对动作学习的是反应式行为——其增量动作会持续累积直至触发关键事件（例如手指在接触时闭合）；而绝对动作学习的是静态映射关系，若映射存在误差，动作就会停止响应。

仅相对手指轨迹能够受益于带噪声的触觉反馈：表 1 中一个有趣的观察是，触觉反馈对评估结果存在差异化影响。这是由于XHand 机械手上的触觉传感器在经历高压后可能会出现漂移且读数不一致的问题。因此，在多数情况下，启用触觉反馈反而会使结果变差。研究人员观察到，只有配合相对轨迹，触觉传感才能对控制策略产生贡献。对于 Inspire 灵巧手，研究人员人工加装的触觉传感器带来的噪声更大，因此添加触觉传感作为输入后，所有方法的性能均有所下降。然而，与采用绝对式轨迹的策略相比，采用相对轨迹的策略受到的性能负面影响较轻。

触觉反馈在具清晰力分布的任务中提升性能：研究人员试图理解何种任务能够受益于触觉传感。首先将关注点放在 XHand 灵巧手上，因其触觉传感器提供更清晰的读数。研究观察到，在舀取盐粒的任务中，触觉反馈显著提升了操作性能。此任务突显了触觉传感效果，原因有二：1) 当手指接触到盐碗时，触觉传感器会产生清晰显著的读数；2) 接近抓取阶段时有用视觉信息极少，这主要是由于摄像头视野被盐碗遮挡。在此情况下，研究人员发现触觉反馈会完全改变策略行为：当启用触觉传感器时，手指总是先插入盐粒而随后闭合；而禁用触觉反馈时，手指有时会在空中试图进行抓取行为。相反，触觉信息对镊子操作并无助益，因为手部运动与力反馈间缺乏强相关性——握持镊子仅触发极微弱的触觉传感器读数。

DexUMI框架支持高效的灵巧手数据收集工作：研究人员在茶叶采摘工具任务中，对比了三种数据收集方式的效率：DexUMI系统、直接人手操作以及遥控操作。同一位操作员在15分钟内分别采用每种方法进行数据采集，并基于获取到的成功轨迹次数计算收集通量（CT）。如图7所示，尽管DexUMI的速度仍低于直接人手操作，但其效率达到传统遥控操作方法的3.2倍，大幅降低了灵巧手操作数据收集所需的时间。

图4｜收集效率：15分钟内收集通量（CT）对比。虽然DexUMI仍慢于人手直接操作，但其效率显著高于遥控操作方法。

研究人员提出DexUMI框架——一种可扩展的高效数据收集与策略学习系统：该框架以人手为操控接口，在提供自然触觉反馈的同时，将人手动作映射为精确的机器人手部动作。通过大量高难度现实场景实验，研究验证了DexUMI具备学习精确操作、高接触复杂度及长视域任务的灵巧操作策略的能力。该工作开创了突破传统遥控操作局限，实现大规模灵巧手真实世界数据的高效采集。