举一反“万” | 2篇开创性工作解读：模仿学习，如何让机器人“操作”突破空间泛化瓶颈！

本文链接：https://blog.youkuaiyun.com/soaring_casia/article/details/148697477

教会机器人一项精细操作（如抓取、装配），往往需要成百上千次人工示范。更棘手的是，机器人严重依赖这些示范发生的具体位置——即便纳入预训练模型和三维视觉编码器，机器人依旧只能在与演示区域「咫尺之遥」发挥良好，稍有距离便功亏一篑。

这种“触手可及，却又遥不可及”的「空间泛化瓶颈」，不仅让研究者和工程师苦恼，也在悄然拷问：

如何让机器人跳出示范的“舒适圈”，真正做到“见一条路，行万里”？

或许答案就在本文重点探讨的两项开创性工作上——DemoGen和DreamGen。

DemoGen：从单条真实演示出发，自动合成海量高质量三维点云训练数据，大幅降低数据收集成本。
DreamGen：利用创新的神经轨迹视频世界模型，让机器人通过“想象”生成多样化的操作路径。

它们代表着数据高效模仿学习的关键技术，接下来我们具体来看这两条创新路径是如何实现的。

首先是清华大学许华哲老师团队在RSS上的研究工作——DemoGen，从三维点云合成出发，利用单条人类示范数据，生成大量合成训练样本。

▲DemoGen：一种完全合成的方法，用于自动演示生成

提出背景

大量研究表明，视觉运动策略在机器人操作领域取得了非凡的能力，但它依赖大规模人类收集的数据。对于一些普通任务可能需要上百次演示，对于更复杂的长程任务可能需要数千次演示，这种数据密集的本质来源于空间泛化能力有限。

本文首先探索了两个小实验得出如下结论：

就算与预训练或三维视觉编码器相结合，也会表现出有限的空间泛化能力，通常仅限于与演示对象配置相邻的区域。

▲实证研究

（一）空间有效范围的可视化

为了获得对空间泛化的直观理解，将视觉运动策略的空间有效范围与演示数据的空间分布之间的关系可视化。

实验条件

i. 设置了按大按钮（蓝色）和按小按钮（黄色）两个任务；

ii. 深绿色代表训练数据中，按钮摆放的位置，从左到右数据（demos）逐渐密集。

实验发现

i. 视觉运动策略的空间泛化范围与演示中物体配置的分布密切相关；

ii. 有效范围可以通过演示对象位置周围区域的结合来近似估算；

iii. 要在整个工作范围内实现良好的泛化，演示必须覆盖整个工作空间，从而导致大量的数据收集成本；

iv. 越精细的任务，向相邻区域的泛化越有限，从而依赖更密集的数据。

▲空间有效范围的定性可视化

（二）空间泛化能力基准测试

探讨演示次数与政策性能之间的关系，以确定多少演示次数才足以进行有效的训练。

实验条件

i. “精确插销插入 ”任务，在拾取和插入阶段严格执行 1 厘米容错，达到毫米级精度

ii. 为了研究对象随机化的影响，考虑了半工作空间（两个对象的随机化范围减半）和固定工作空间（对象位置保持不变）

实验发现

i. 对象的随机化程度对所需的演示有很大影响。因此，有效的视觉运动策略想要泛化到足够大的工作空间，必须依赖密集的演示分布。

ii. 三维表征和预训练的二维视觉编码器都有助于提高空间泛化能力。然而，这些方法都没有从根本上解决空间泛化问题。

▲空间泛化能力定量测试

实验表明，机器人空间泛化能力并不是从策略本身固有地衍生出来的，而是通过对给定演示的工作空间进行广泛遍历而发展起来的。

面临挑战

这就产生了一个悖论：

虽然实现灵巧操作的关键动作都集中在一小部分接触丰富的区域，但人类的大部分精力都花在了教机器人接近自由空间中的物体上。

MimicGen及其后续研究提出，可根据物体的相互作用对演示轨迹进行分割，从而生成演示，然后对这些以物体为中心的轨迹段进行转换和插值。

尽管在仿真中取得了成功，但是将MimicGen策略应用到现实环境中却受到了阻碍，因为on-robot rollouts的成本很高，几乎与收集原始演示的成本一样高。

另一种方法是通过从模拟到真实的转移进行部署，但缩小sim2real gap仍是机器人领域的一大挑战。

DemoGen的提出

通过对以上内容的进行研究后，团队探索出了DemoGen“全合成数据生成（fully synthetic pipeline）”路径，无需真实机器人执行，直接生成可用于策略训练的空间增强演示数据。

▲结合任务和运动规划(TAMP)

1、动作生成（Action Generation）

轨迹分解：将原始动作轨迹进行分解

自由运动段（Motion Segments）：机器人在无障碍空间移动（如接近物体）。

技能段（Skill Segments）：涉及物体交互的接触式操作（如抓取、插入）。

空间变换：

技能段：根据目标物体新位姿整体变换（保持相对空间关系）。

自由运动段：通过运动规划（如RRT-Connect）重新连接相邻技能段，确保路径可行性。

关键改进：

采用逆运动学（IK）控制器生成绝对末端执行器位姿，减少累积误差。

▲动作生成示意图

2、视觉观察合成（Observation Synthesis）

选择点云（Point Cloud）作为模态：

点云本质是3D数据，可通过几何变换直接编辑物体位置，避免2D图像生成模型的视角失真问题。

合成流程：

分割与聚类：通过Grounded SAM分割RGB图像，映射到点云，提取物体和机械臂的3D点簇。

3D编辑：对点云施加与动作相同的空间变换（如平移、旋转）。

阶段处理：

（1）待操作阶段（To-Do）：静态物体按目标位姿变换。

（2）操作阶段（Doing）：物体与机械臂接触，点云合并后统一变换。

（3）完成阶段（Done）：物体保持最终状态。

优势

合成点云与真实物理过程一致，最小化视觉差异（visual gap）。

▲合成视觉观察生成的示意图

实验效果和效率

数据效率：仅需1条人类演示，即可生成数百条合成数据，策略性能接近25条人类演示的结果。
计算成本：单条轨迹生成仅需0.01秒，比MimicGen（依赖真实机器人执行）快数万倍。
泛化能力：在8项真实任务中平均成功率提升至74.6%。

▲任务演示

支持：

单臂/双臂平台（如Franka Panda、双手机器人Galaxea R1）。
不同末端执行器（平行夹爪、灵巧手）。
多视角观察（第三人称、自我中心视角）。
多样物体（刚体、可变形物体、流体）。

▲空间泛化模拟评估

扩展应用

扰动抵抗（Disturbance Resistance）

ADR策略：在合成数据中模拟物体位移，训练策略动态调整动作（如酱料涂抹任务覆盖率达人类专家92.3%）。

障碍物规避（Obstacle Avoidance）

在点云中插入虚拟障碍物，通过运动规划生成避障轨迹（22/25次成功避障）。

▲真实世界评估

局限性

依赖点云质量：在高度杂乱场景中分割可能失效。
单视角限制：远距离变换时因视角固定可能导致视觉不匹配。

小结

DemoGen 通过3D点云编辑+TAMP规划，实现了低成本、高泛化的机器人演示数据生成，为模仿学习提供了可扩展的合成数据解决方案。

一作讲解：https://www.shenlanxueyuan.com/open/course/277

接下来是NVIDIA团队新作，他们实现了一个比Sora更“疯狂”的工作。

该研究建立了一个完整的合成数据闭环，仅需单环境真实数据即可生成多样化训练样本，大幅降低数据依赖的同时突破了泛化瓶颈。

视频世界模型展现的多模态理解能力为机器人适应动态场景和长尾任务提供了新范式，标志着从依赖真实数据到智能合成的范式转变。

▲DreamGen泛化

提出背景

大规模遥操作数据显示出通用机器人的强大潜力，但是这种数据收集模式依赖于为新任务和新环境手动手机数据，成本高昂且劳动密集。

仿真中生成合成数据是一种很有潜力的替代方法，但它依赖大量工程设计，并且存在sim2real gap。

之前的工作主要集中在实时规划器，但本文工作将它作为数据生成器，释放其在物理推理、自然运动、语言基础方面的强大先验。

合成数据方法DreamGen由此提出，它利用video world model，用最少的手工劳动以及工程设计大规模创建真实的训练数据

▲DreamGen的4个步骤

整体框架（四阶段训练）

（一）视频世界模型微调（Video World Model Fine-tuning）

目标

通过人类遥操作机器人轨迹微调视频世界模型，使其适应机器人的物理约束和运动能力。

关键技术

使用LoRA防止遗忘预训练的互联网视频知识；

评估指标包括指令跟随和物理规律遵循，以验证模型对目标机器人领域的适应性。

数据预处理：

多视角数据（如RoboCasa和DROID）被串联为2×2网格（留空一个位置）；

不同模型和数据集需调整微调超参数（学习率、训练轮次等）。

（二）视频世界模型推演（Video World Model Rollout）

流程

基于微调后的模型，通过初始帧和语言指令生成合成机器人视频。

数据收集：

仿真实验：从模拟器中随机采样初始帧，调整目标物体或环境位置。

真实实验：手动拍摄新初始帧并随机化物体位置。

泛化能力测试：

在单环境训练后，用新环境初始帧测试模型泛化性。

设计新行为指令评估行为泛化能力。

（三）伪动作标注（Pseudo Action Labeling）

▲提取伪动作

方法1：逆动力学模型（IDM）

架构：基于扩散Transformer和SigLIP-2视觉编码器，以流匹配（flow matching）目标训练。

输入：两帧图像，输出预测的动作序列（无需语言或本体感觉输入）。

标注流程：滑动窗口预测动作块，逐步覆盖整个视频。

方法2：潜在动作模型（LAPA）

架构：基于ViT编码器-解码器和VQ-VAE，从视频帧中提取潜在动作。

优势：无需真实动作标签，通过视觉帧间差异生成连续潜在嵌入。

应用：适用于跨 embodiment 的泛化（如GR00T N1项目）。

（四）下游策略训练

整体框架

1. 利用生成的合成视频和伪动作标签训练视觉运动策略。

2. 策略以语言指令和当前图像观测为输入，输出预测动作序列

3. 动作类型可选择IDM标注的显式动作或LAPA提取的潜在动作

4. 由于神经轨迹不包含机器人真实状态信息（如关节角度），训练时以零值填充状态输入

DREAMGEN的通用性体现在支持三类策略模型训练：

Diffusion Policy、pi0、GR00T N1

训练分为两种模式

混合训练：神经轨迹与真实轨迹按1:1比例交替训练。对于GR00T N1，两类数据被视为不同embodiment，分配独立的动作编解码器。

纯合成训练：仅使用神经轨迹，专门用于测试策略在新环境或新行为指令下的泛化能力。

方法核心优势

通过合成数据显著降低对真实遥操作数据的依赖，同时保持策略在复杂场景中的适应性；

在环境泛化实验中，仅需单一环境的真实数据训练视频世界模型，即可生成多样化虚拟场景数据供策略学习。

实验

展示DREAMGEN的三个关键应用

▲神经轨迹缩放数量

（1）增强现有训练数据

（2）实现对新行为的泛化

（3）实现对新环境的泛化

数据增强

scale神经轨迹（X 轴）和真值轨迹（低、中、高）的大小，并用LAPA和 IDM 来探索成功率的变化。

▲真实世界机器人评估结果

x=0处代表仅用真值轨迹，没有任何增强的神经轨迹的效果；
利用神经轨迹进行联合训练都能提高LAPA和IDM操作的性能，且效果相似，因此后续默认采用IDM；
神经轨迹总数与下游机器人策略之间存在一直的对数性斜率，表现了其可扩展性。

▲在新任务(14个任务)和环境(13个任务)上的成功率

在涉及工具操作、可变形物体操作和拾放操作的灵巧任务中，神经轨迹在所有机器人实例中都能持续改善不同视觉运动策略（Diffusion Policy、pi0 和 GR00T N1）的性能。
由于这些任务与工具和可变形材料之间存在复杂的物理交互，使得以前的合成数据生成方法难以实现
从效果上看，与 Diffusion Policy和 pi0 相比，我们观察到 GR00T N1 有更高的性能提升，我们假设，为 IDM 动作设置单独的动作参数和解码器参数有助于解决神经轨迹以 0 为状态的问题。

实验基于GR1人形机器人2,884条抓放轨迹微调视频世界模型，在GR00T N1策略框架下验证了其突破性表现：

行为泛化方面，仅凭初始帧和语言指令即可生成全新动作视频（如倒水、搅拌），纯合成数据训练使任务成功率从11.8%提升至43.2%，无需人类示范数据。

环境泛化方面，模型融合机器人运动特性和物理常识，仅需单张新环境初始帧就能实现零样本迁移，完全超越传统方法（基线模型0%成功率）。