从来没学过“倒饮料”的机器人,仅靠“看”就会倒了,准确率么……
在让机器人“像人一样”操作物体这件事上,研究人员一直面临两个老大难问题:
-
一是机器人训练数据太难收集;
-
二是训练出来的机器人,离开实验室就不会干活了。
最近,卡内基梅隆大学团队提出了一个非常巧妙的解决方案 —— DexWild。
简单来说,他们发明了一套“戴在手上”的数据采集设备,让普通人用自己的双手在日常生活中收集操作数据。
比如拿起喷壶、叠衣服、插花……这些数据随后被用来教机器人“模仿人类”,再配合少量机器人的遥操作数据,最终训练出一个能在新场景、新任务甚至新机器人平台上都能应对自如的智能体。
令人惊艳的是,这种“人类+机器人”混合训练策略,不仅让机器人在陌生环境中的成功率提升了4倍以上,还能做到换机器人也照样能用。
可以说,这项工作向着“通用灵巧机器人”的目标,又迈进了一大步。
我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
欢迎关注【深蓝具身智能】👇
DexWild梗概
DexWild 的方法可以理解为“用人教机器人,再教它用自己的手完成任务”。
研究团队首先设计了一套便携式的数据采集系统,叫做 DexWild-System。
人们只需要戴上一个轻便的手套,手套上装有传感器和小型摄像头,就可以像平时一样操作物体,比如拿喷壶、叠衣服、倒水等,而系统则自动记录下操作过程中的手部动作和视觉信息。
这种方式不需要复杂的机器人遥操作,普通人也能在日常环境中轻松采集数据,既真实又多样。
有了这些人类演示数据,接下来就是教机器人如何“看懂”并“做出来”。
团队采用了一种“联合训练”的策略,将大量人类操作的数据和少量机器人亲身操作的数据一起用于训练。人类数据带来了丰富的环境与任务多样性,而机器人数据则帮助模型学会如何将观察转化为机器人自身的动作控制。通过这种方式,DexWild 实现了跨越“人手”和“机械手”之间差异的能力迁移。
在模型训练部分,研究者使用了视觉Transformer来理解复杂的视觉场景,并引入了 diffusion 策略模型,能处理人类演示中存在的多样性与不确定性。相比传统的模仿学习方式,这种模型更擅长从多种可能的动作策略中做出灵活选择。最终,DexWild 不仅能在新环境中完成任务,还能适应新的任务类型甚至新的机器人平台,展示了极强的泛化能力。
▲图1|DexWild通过左边的人类示范,能够泛化到右边的机器人操作,包含未见过的物体与未见过的场景©️【深蓝具身智能】编译
DexWild详细解读
DexWild的数据采集系统:用“人手”采集数据的新方式
传统机器人数据采集通常需要专业人员通过遥操作完成,这不仅效率低,还很难在多样的环境中进行。而 DexWild 团队另辟蹊径:直接让普通人用自己的手来演示任务操作。
他们开发了一套轻便、高精度的数据采集设备——DexWild-System,包含动作捕捉手套、掌部摄像头、追踪摄像头和一个迷你计算机,文字或许不直观,我们一起看看下面的图示,第一行第一幅图就是采集设备中的视觉模块,用来一边执行操作,一边观测环境,第一行第二幅图能够看到,在机器人的手掌上也部署了同样的摄像头,保证操作过程中两者的观测是一致的,第二行则展示了人类示范过程中不同视角下的任务观测。
▲图2|DexWild数据采集设备示例©️【深蓝具身智能】编译
人类演示者只需戴上这套设备,就可以像平常一样操作物体,比如打开抽屉、倒水、插花、叠衣服等,系统自动记录他们的手部动作轨迹和视觉信息。关键在于:
-
便携性强:几分钟就能搭好设备,适用于室内外各种环境;
-
不需要校准:用的是相对位姿变化,而非依赖全局坐标系;
-
对机器人本体“中立”:采集下来的数据可以迁移给不同的机器人平台使用。
▲视频2|数据采集示例(第一人称视角)©️【深蓝具身智能】编译
最终,他们用这套系统采集了来自 93 个真实环境、超过 9000 段的高质量演示数据,覆盖多个典型任务。
这个规模,是以往遥操作系统难以实现的,同时这些数据的质量也会比同期一些基于网络视频输入作为训练素材的质量更高,因为这些数据中包含了准确的操作轨迹,姿态,观测信息,甚至融合多视角,提供了其它数据集不含有的丰富训练资料。
▲图3|人类穿戴这套设备进行数据采集,能够逼近人类正常执行任务时的操作速度,比用机器人直接采集快了近5倍©️【深蓝具身智能】编译
训练过程:基于人类演示+机器人操作的联合学习
人类采集的数据虽然丰富,但机器人并不能直接照搬“人手怎么动”。因此,DexWild 提出了联合训练(Co-training)机制:在训练过程中,模型同时看到两种数据:
-
大量人类演示:提供任务、物体、环境的多样性;
-
少量机器人操作数据:提供“机器人自己是怎么动的”这一动作对齐的基础。
这种设计非常聪明:人类数据教模型“做什么”,机器人数据则教它“怎么做”。为了让训练更有效,他们对两种数据进行了统一的处理:
-
视觉输入统一:人和机器人的掌部摄像头摆放位置一致,看到的是类似的画面;
-
动作表示标准化:通过指尖位置匹配和归一化等方式,让人类的动作可以映射到机器人手上;
-
质量过滤机制:自动剔除采集过程中的低质量演示,保证训练数据干净有效。
▲图4|DexWild训练学习过程中的人类操作与机器人操作观测对比,可以看到由于巧妙的实验设备设计,机器人在执行操作时拥有和人类示范过程中十分接近的观测视角©️【深蓝具身智能】编译
同时作者也给了我们一些宝贵的实验经验:用人类与机器人数据按 2:1 的比例联合训练,能在各种任务中取得最好的泛化效果。
策略学习模型:让机器人“举一反三”
DexWild 的策略学习使用了两个核心技术点:
1. 视觉编码器:使用的是一个强大的 Vision Transformer(ViT)模型,它对各种环境、光照、角度下的图像都有强大理解能力。
2. Diffusion Policy 策略模型:这是一种可以输出一段连续动作序列的生成式模型,特别适合处理“动作多样性”和“人类操作不唯一性”的问题。
为什么用 Diffusion?
因为人类操作一个任务时动作往往有很多种可能,比如同样是倒水,有人倾斜慢,有人动作快,传统策略模型容易学到“平均值”——而 diffusion 可以学会“动作分布”,选出更自然、更合理的一种。
此外,模型还加入了历史状态信息和手部相对位置等,进一步增强了其在复杂任务中的表现力,尤其是在双手协同任务如插花、叠衣等任务中,表现远超传统方法。
▲图5|通过DexWild中的策略学习模型,机器人可以轻松学习需要双手配合的灵巧操作,比如插花和叠衣服©️【深蓝具身智能】编译
DexWild实验结果
为了验证 DexWild 的方法效果,研究团队在真实机器人平台上进行了大量实验。他们选取了 五种不同类型的任务,覆盖了从单手操作到双手配合,从刚体到柔性物体的各种挑战。测试使用的机器人包括 xArm 和 Franka Panda 两种主流机械臂,配合 dexterous 机械手,真正“落地”在了硬件上。
这五个任务分别是:
-
喷壶喷水:测试功能性抓取和角度控制;
-
玩具清理:捡起散落玩具并放入盒子,考验长期规划;
-
倒水:从一个瓶子倒入另一个容器,考察动作迁移能力;
-
插花(双手):将花束从一只手递到另一只手插入花瓶,考验双手协调;
-
叠衣服(双手):处理柔性物体,评估形变物体的操作能力。
更重要的是,DexWild 并不仅仅在“训练用过的环境”里测试,而是将机器人丢进完全没见过的新场景里,甚至是人类和机器人都没采集过数据的极端环境中,这样的训练可以最大程度的测试出机器人的泛化能力。
▲图6|玩具清理与叠衣服实验结果图示©️【深蓝具身智能】编译
▲图7|跨任务与跨平台实验结果©️【深蓝具身智能】编译
实验结果显示,DexWild 所提出的“人类+机器人”联合训练方法在各个任务和环境中都取得了显著提升,关键结论如下:
-
在陌生环境中的成功率达到 68.5%,是仅用机器人数据训练策略的 4 倍以上;
-
在极端“零样本”场景中(即任务场景、人类和机器人都从未见过),依然取得超过 60% 的成功率;
-
跨任务迁移能力强:模型只在“喷壶”任务上见过机器人演示数据,但在“倒水”任务上也能顺利完成操作(94%成功率);
-
跨平台迁移能力强:同一策略可以在不同机械臂和不同机械手上通用,效果远超 robot-only 策略(跨平台性能提升可达 5~8 倍);
随着人类数据增多,性能持续提升,没有出现明显“饱和”或“过拟合”现象。
总结与展望
DexWild 的提出,像是一股清流,为机器人泛化难、数据获取难这两个老问题提供了新解法。
它打破了传统思路,不再依赖高成本的遥操作或模拟器训练,而是回归到了最自然、最丰富的资源:人类自身的日常动作。通过结合人类操作的多样性与机器人自身的“身体记忆”,DexWild 成功训练出了能适应不同任务、不同场景、甚至不同平台的机器人策略。
更重要的是,DexWild 所展现出的能力,不仅仅是“模仿人类”,而是在逐步具备通用操作智慧的雏形——这正是“具身智能”所追求的目标。在这个领域,我们期望的不只是智能体能“看见”、“理解”,更希望它能真正动起来,适应环境,完成任务,并像人一样灵活应对复杂世界。
DexWild 向我们展示了一条非常具有启发性的路径:借助人类的先天操作经验,打造通用、可扩展、现实可部署的机器人智能系统。虽然仍有挑战,比如动作映射误差、异常情况处理等,但这项工作无疑朝着“现实世界可用”的具身智能迈出了坚实的一步。
未来,我们可以设想这样的图景:不需要复杂的标注流程,只要普通人戴上轻便的设备,就能为通用机器人的成长贡献一份“动作”,而机器人们也能像孩子一样,在观察与模仿中不断进化,最终成为真正能走出实验室、走入人类社会的智能伙伴。
在具身智能备受瞩目的当下:
在诸多知名企业汇聚的【上海】”:
在5月24日(本周六):
我们再次发起了一场「非正式学术沙龙」,进行一场0距离对话探讨(深蓝星友免费参与)。
【参与方式】:
⬆️非星友,可以先扫上方右侧二维码领取优惠券,成为深蓝学院星友。接下来,深蓝学院全域星球将以城市为点位(北京、上海、杭州等),持续举办「星友技术沙龙」,面向不同领域、聚焦前沿动态……星友们均可免费参与。
期待沙龙见!