告别数据焦虑，H-RDT带你看懂“人类示范”的机器人迁移秘诀

最新推荐文章于 2025-12-01 18:59:53 发布

原创最新推荐文章于 2025-12-01 18:59:53 发布 · 988 阅读

CC 4.0 BY-SA版权

文章标签：

导读

在教机器人“做事”这件事上，AI 社区一直在寻找更聪明、更高效的方式。过去几年，我们见证了从 RT-1 到 RT-2，再到 OpenVLA、π0 等模型的兴起，越来越多的系统开始具备“看图理解任务、生成动作”的能力，Vision-Language-Action（VLA）俨然已成为通用机器人智能的核心框架。

但人类每天的操作行为其实就是一个天然的大模型训练集：我们用双手做饭、刷牙、装配、收纳——这些“日常”，本质上正是机器人所欠缺的“经验数据”。

▲图1｜全文方法总览：H-RDT是一个两阶段的人-机器人Diffusion Transformer

H-RDT（Human to Robotics Diffusion Transformer）提出了一条新路径：能否让机器人不再只学“自己的数据”，而是先学“人类是怎么操作的”，再转化为自己的能力？

作者的核心观点是：借助大规模带有3D手部姿态标注的第一视角人类操作视频（如 EgoDex），我们可以提取出行为策略、操作结构、物体先验等对机器人极具价值的知识。这不仅能解决演示数据稀缺的问题，还能提高多任务泛化能力，为不同身体结构的机器人提供一致的学习基线。

更重要的是，H-RDT 并不是“换壳套人类动作”，而是提出了模块化的 Diffusion Transformer 架构，通过“人类→机器人”的渐进式知识迁移机制，实现跨身体结构的精准适配与动作生成。。

接下来，小编将围绕三个关键模块，带大家逐步拆解 H-RDT 是如何用人类经验为机器人赋能的——从动作表征的跨具身设计，到训练策略的两阶段融合，再到策略学习范式的技术升级，逐步揭示这篇工作背后的工程智慧与理论价值。

▲图2｜H-RDT框架。该方法由两个主要阶段组成：(1)对具有48维手部姿态表示的大规模人体操作数据进行预训练，以及(2)基于适应特定机器人动作空间的模块化动作编码器和解码器的适应性微调。

结构化的人类动作表征

在人类到机器人策略迁移中，最大的鸿沟往往并非视觉或语言差异，而是动作层面的具身差异。手指与机械爪、手腕与舵机关节、骨骼肌肉系统与刚性连杆系统……这类差异往往导致直接迁移失败，无法泛化。

H-RDT 通过对人类动作的结构化建模，构建了一种 48 维的紧凑动作向量表示，用以对齐多种机器人动作空间，为跨具身策略学习打下坚实基础。

这套表示包含两个关键组成：

● 双手手腕位姿（Bilateral Wrist Pose）：

○ 包括左右手的 3D 位置（3×2）与 6D 姿态（6×2），共计 18 维；

○ 这部分与机器人控制中的末端执行器（End-Effector）控制参数直接对齐；

● 十个手指的指尖位置（Fingertip Position）：

○ 每个手五根手指，各提取一个三维坐标，总共 10 × 3 = 30 维；

○ 用于表达手指张合、握持形态等细粒度操作意图。

总计：18（手腕） + 30（指尖） = 48维动作表示

这种表征策略的优势体现在三个方面：

● 动作通用性强：该表示可以视作覆盖大多数操作型机器人的“上层动作空间”，能覆盖如双臂 7-DoF 机械臂、并联夹爪等控制参数；

● 保留人类操作的关键特征：指尖相对位置、手腕旋转、抓取姿态等都被编码在其中，保留了对操控几何和力学要素的刻画能力；

● 降低具身差异影响：相比于 flow 表征或手动 retargeting，这种方式跳过了复杂的动力学映射，聚焦操作语义，减少训练过程的具身冲突。

这一策略也构成了后续模型训练的基础，使得机器人能直接从人类的“动作空间”中提取迁移知识，而不需要对每一对人机动作做繁琐的一一映射。

两阶段训练范式

人类的操作经验丰富且低成本采集，但直接用于机器人控制面临三大挑战：

1. 动作具身差异大（手 vs. 机械臂）；

2. 数据分布不一致（人类自然操作 vs. 机器人受限动作）；

3. 学习稳定性差（控制目标模糊）。

H-RDT 提出了一套 “先人后机、分阶段适配” 的训练策略，有效解决上述难题。这套策略包括两个核心阶段：

阶段一：基于人类数据的大规模预训练

● 数据来源：使用 EgoDex 数据集，包含 829 小时、33 万+ 条轨迹、194 个真实操控任务。

● 训练目标：让模型掌握通用的人类操作模式与任务分解能力，形成良好的策略先验（prior）。

● 动作空间：采用前述 48 维人手表示，不受具体机器人的具身限制，确保策略具备一定“跨平台”泛化能力。

● 学习机制：采用 flow matching 而非传统 diffusion，提升训练稳定性和推理效率（见第三部分详解）。

这一阶段的目标是建立一个统一的人类策略基础模型，使模型具备泛化操作语义、操控几何等基础认知能力。

阶段二：机器人平台上的跨具身微调

● 目标：将人类经验迁移到特定机器人的具身结构中，实现策略的“落地”。

● 迁移方式：采用模块化参数转移 + 差异模块重初始化机制：

模块	操作方式
Vision Encoder（视觉）	保留预训练权重
Language Encoder（语言）	保留预训练权重
Transformer Backbone（主干网络）	保留预训练权重
Proprioception Adapter（状态编码器）	重新初始化
Action Decoder（动作解码器）	重新初始化

● 为何模块化？

○ 保留人类预训练阶段所学的视觉语义、任务理解；

○ 同时针对目标机器人，重新学习其具体控制接口（如14维关节控制向量）；

○ 避免直接迁移造成的“动作空间错配”问题。

这一阶段的训练策略不仅适配具体机器人，还支持多种具身结构的并行迁移，体现了良好的结构解耦与迁移效率。

通过这两个阶段的组合，H-RDT 实现了从人类到机器的知识迁移闭环 —— 从“经验共享”到“指令执行”，在解决数据瓶颈的同时，也降低了多机器人系统的训练成本。

H-RDT整体结构：高效生成多步动作序列

除了解决数据源和具身迁移的问题，H-RDT 在模型架构与训练机制上也进行了两项关键创新：引入 Flow Matching 替代传统 Diffusion 过程以提升训练效率，同时构建了一个具备跨模态表示能力的统一 Transformer 架构。

Flow Matching：稳定高效的动作生成机制

以往基于 Diffusion 的策略学习方法虽然具有建模复杂动作分布的能力，但在机器人控制中存在两个主要问题：

● 训练不稳定：原始 Diffusion 要反复采样与反向推理，噪声扰动大；

● 推理效率低：动作生成过程较慢，难以满足控制实时性需求。

为此，H-RDT 引入 Flow Matching方法，以向量场学习方式代替 Diffusion，优势如下：

● 训练目标：学习一个将高斯噪声连续映射为目标动作序列的向量场；

● 流程设计：

$a_{\tau} = \tau \cdot a^* + (1 - \tau) \cdot z$ ，其中 $\tau \in [0, 1], z \sim \mathcal{N}(0, I)$ 表示当前“动作点”在高斯噪声与真实动作之间线性插值。

● 训练损失：

$L_{FM} = \mathbb{E}_{\tau, z, a^*, c} || v_{\theta}(a_{\tau}, \tau, c) - (z - a^*) ||^2$

其中 $v_{\theta}$ 是要学习的向量场， $c = \{o_t, s_t, l\}$ 是图像、状态和语言的上下文条件。

● 推理阶段：无需采样反向过程，只需用 ODE 解算器积分向量场路径，快且稳定。

这种方式特别适合生成高维动作序列（如 7-DOF 双臂控制、连续轨迹），极大提升了策略执行效率与多步预测能力。

统一 Transformer 架构：模块化感知-动作融合

H-RDT 构建了一个五模块组成的 Transformer 框架，负责从多模态感知输入生成机器人控制序列：

1. 视觉编码器（DinoV2 + SigLIP）：

● 提取 RGB 观测的视觉特征；

● 配有 MLP Adapter 映射到 transformer 嵌入空间。

2. 语言编码器（T5-XXL）：

● 编码自然语言任务指令；

● 同样通过 MLP Adapter 接入主干。

3. 模块化动作编码器：

● 编码机器人状态向量与 noisy 动作轨迹；

● 在 flow matching 训练中作为输入特征。

4. Transformer 主干（类 LLaMA 架构）：

● 使用 SwiGLU 激活与 RMSNorm；

● 结合自注意 + 跨模态注意机制对视觉和语言信息进行融合；

● 将时间信息（τ）嵌入 transformer 流中，以适配 flow matching。

5. 模块化动作解码器：

● 将 transformer 输出还原为目标机器人的控制动作向量；

● 在微调阶段根据机器人具体具身结构重新初始化。

这一架构设计的关键亮点是：不同模态信息通过解耦交叉注意机制融合，而非强行拼接，避免了模态间的不均衡扰动。同时其模块化结构也使得适配不同机器人只需重训练小部分子模块，大幅降低训练开销。

综上，H-RDT 不仅提供了一种人类演示迁移的路径，也在动作生成和模态融合层面，构建了一套兼顾泛化性与执行效率的策略学习框架。

作者围绕人类经验迁移的核心假设，设计了一系列实验，评估H-RDT在仿真与真实环境下的表现，涉及单/多任务学习、跨平台迁移、环境鲁棒性、少样本学习能力等多个维度。接下来，我们分平台具体看看H-RDT到底表现如何。

实验一：真实机器人平台上的双手协作表现

作者首先在真实的Aloha-Agilex-2.0平台上进行了两个典型双手协作任务：

折叠毛巾任务（Towel Folding）

● 难点：柔性物体的顺序折叠动作。

● 结果：H-RDT完整成功率达到 52%，相比之下RDT为40%，从零训练模型（Scratch）完全无法完成该任务（0%）。

● 说明：人类操作数据使机器人掌握了更多的精细操控策略，尤其是在处理复杂的柔性材料时表现更为稳健。

▲图3｜叠毛巾任务可视化

杯子放置任务（Cup to Coaster）

● 难点：机器人需根据空间位置自动选择左/右手抓取放置。

● 结果：H-RDT的完整成功率达到 64%，明显高于RDT的28%与Scratch的20%，失败率最低。

● 说明：人类数据的空间推理经验显著提高机器人空间决策的准确性，明显降低了选择错误的概率。

▲图4｜杯子放置任务可视化

总体而言，这两个真实任务中，H-RDT平均成功率为58%，远超RDT（34%）和从零训练模型（10%），印证了人类行为先验在高难度协调任务中的价值。

实验二：少样本学习与泛化能力

接下来，作者设计了一个极具挑战的任务：在双臂ARX5机器人平台上完成113个不同的抓取放置任务，每个任务仅提供1到5个示范样本。

● 难点：任务种类多，演示样本极少。

● 结果：H-RDT成功率达到了 41.6%，而π0仅为31.2%，RDT为16%，从零训练仅17.6%。

● 说明：人类预训练经验在数据极端稀缺的条件下，明显增强了模型的少样本泛化能力。

▲图5｜ARX5抓取任务可视化

实验三：不同真实机器人平台的泛化评测（UR5 + UMI）

此外，作者在双臂UR5机器人平台（配合UMI采集的人类演示数据）进行了双手协作的「外卖袋放置任务」，该任务被细分为四个连续步骤：

右手抓取 → 右手放置 → 左手抓取 → 左手放置

● 结果：H-RDT在全部子任务中表现突出，总体成功率达到 58.0%，远超RDT（29%）、π0（31%）与Scratch（16%）。

● 说明：人类演示数据尤其提升了双臂协同动作的稳定性，体现出其对多步任务理解和动作流畅性的强化作用。

▲图6｜不同真实机器人平台泛化实验

实验四：仿真环境单/多任务测试（RoboTwin 2.0）

作者同时也在仿真环境RoboTwin 2.0上进行全面验证，包括单任务和多任务设置：

● 单任务场景：Easy模式（干净桌面）与Hard模式（随机光照、杂乱环境）

○ 结果：H-RDT在Easy模式平均成功率 68.7%，在Hard模式也达到 25.6%，明显高于其他方法。

● 多任务场景（共45任务，随机域数据）

○ 结果：H-RDT成功率更是达到惊人的 87.2%，相比之下RDT为28.8%、π0为48.4%、Scratch为67.2%。尤其是在多任务泛化中，人类经验带来的提升（相比Scratch有20%的绝对提高）尤为突出。

▲图7｜仿真环境复杂任务测试量化实验结果

通过以上的详细解读，我们清晰看到：H-RDT 不只是一次技术创新，更揭示了一条重要的机器人智能演化之路——让机器人直接从人类的操作经验中获得通用策略。面对数据采集成本高、泛化困难等挑战，人类操作数据凭借其丰富性、低成本和强泛化能力，成为机器人策略学习不可忽视的新“宝藏”。

更为重要的是，H-RDT 的设计思路和架构——模块化Transformer、多阶段迁移训练、Flow Matching 动作生成，都为今后跨机器人平台的策略泛化提供了新范式。这种“人类经验引导机器人策略”的思路，或许正代表了未来机器人智能化真正落地的一种新方向。

未来，我们或许能看到机器人从单纯的任务执行者变成“经验学习者”，在日常环境中快速适应、主动迁移、稳健执行更多复杂任务。对此，你怎么看？欢迎留言讨论，一起探索机器人智能的更多可能。

参考文献：

H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation