在深度学习领域,Scaling Law 就像自然法则般令人安心——
模型只要够大、数据够多、算力够强,性能提升几乎是必然的事。
NLP 有它的 GPT、CV 有它的 SAM,而到了机器人这儿,我们不禁也想喊一句:“Give me more data, and I shall grasp the world.”
—— Scaling Law X 机器人的「打脸实录」
因为现实场景是,哪怕你给模型喂了上万条演示,它依然可能在陌生的餐桌前犯迷糊;换个杯子,它甚至分不清这是“要抓”还是“要躲”。
因为,在机器人学习中,数据不仅要多,更要“见识广”。
今天我们就从两篇前沿工作出发,看看“Scaling Law”在机器人领域是如何重构的:
-
一篇是来自清华交叉信息研究院高阳组,获得 CoRL X-Embodiment Workshop 最佳论文奖并登上 ICLR 2025 的工作,系统揭示了环境-对象-演示三轴缩放对泛化性能的影响;
-
另一篇,则是清华计算机系朱军组提出的 ManiBox,通过边界框建模与教师-学生架构,探索了状态表征与策略迁移的新范式。
这两条路径,则正好一个指向“见多识广”,一个指向“看少但懂”。
我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
欢迎关注【深蓝具身智能】👇
Data Scaling Laws
我们首先对清华大学交叉信息研究院的高阳老师课题组在CoRL X-Embodiment Workshop最佳论文奖的paper(且发表在ICLR2025)进行解读。
他们设计了一种高效的方案,仅需四个采集者花一下午便能获取足够数据,使两个任务在新环境和新对象上的成功率达到约90%。
团队还将机器人部署在各种野外环境中,包括火锅店、咖啡馆、电梯、喷泉和其他以前未收集数据的地方。最终,模型在这些全新的环境中展现出极好的泛化能力,超出预期。
背景与动机
a. scaling一致是深度学习快速进步背后的驱动力,这在CV和NLP中已经验证了这个scaling law,也就是模型性能会随着数据大小、模型大小(参数量)和训练的总计算资源的增加而提高;
b. 这篇文章重点探讨的是第一个维度(数据大小),因为数据的扩展是扩展模型和计算资源的先决条件;
c. 如果真的存在scaling law,那么这个规律可能为构建大规模机器人数据集提供什么样的指导;
d. Open X-Embodiment等工作不断扩大机器人操作的数据规模,但这个核心目标是促进不同估计切之间的正向迁移学习。然而在新环境中部署这样的模型仍需要收集数据进行微调,他们的目标侧重于训练一个可以直接部署在新环境和不可见对象中的策略,直接消除了微调的需要。
本文重点
a.基于diffusion policy的模仿学习中的数据缩放;
b. 重要考虑环境泛化能力和对象泛化能力;
c. 不仅限于分布内的组合泛化,重点是分布外的泛化;
d. 当前阶段不考虑任务级的泛化,因为收集数据的工程量太大,重点对倒水和鼠标排列两个任务作为案例研究。这也是未来多任务通才策略的基础。
图1 | 通过Pour Water和Mouse Arrangement的广泛实验推导出数据缩放规律,并在FoldTowels和Unplug Charger等额外任务上进一步验证。
e. 之前有不少探索在新环境或新对象zero-shot的工作,但都没有深入研究泛化和不同数据维度之间的联系。这篇文章系统地探索了随着环境和对象的数量增加,单任务的策略性能如何在新环境或新对象中泛化。以及环境和对象数量固定,演示的数量如何影响策略泛化。
图2 | Mouse Arrangement对象
贡献
a. 策略对新对象、新环境或两者分别于训练对象、训练环境或训练环境-对象对的数量近似成幂律;
b. 增加环境和对象的多样性远比增加每个环境或对象演示的绝对数量更有效;
c. 在32个环境中,每个环境具有一个对象和50个演示,可以很好地推广到任何新环境和新对象;
图3 | Pour Water的训练环境
方法
a. 泛化维度
(1)使用behavior cloning来训练单任务策略,这是目前的主流方法,但表现出较差的泛化性(针对新环境和新对象的泛化);
(2)以前的研究通过单独控制特定因素,没有考虑联合变化,但现实世界的表现不取决于归纳到个别因素,而是同时变化的多种因素的复杂相互作用。
b. 视觉编码器
为了确保扩展数据时模型容量不会成为瓶颈,使用了一个足够大的模型。
c. 时序集成
实现了ACT,在每个时间步长进行预测,从而出现有重叠的操作序列,使用指数加权方案对多个预测动作进行平均,平滑过渡并减少运动不连续性。
Scaling law Formulation
a. 考虑一个场景,其中跨M个环境和相同类别的N个操纵对象,每个环境可以包含任意数量的干扰物对象,对于环境中的每个对象有K个演示被收集;
b. 我们使用在训练期间不可见的环境和对象上的测试分数S来评估策略的性能。
实验设置
图4 | 硬件设置
a. 现有的机器人操作数据集不能为单个任务提供足够的环境和对象来满足要求,因此通过通用手持抓手来收集各种环境中不同对象的人类演示;
b. 一个下午用四个数据收集器收集了超过40000个演示。
实验结论
图5 | 对象泛化
图6 | 环境泛化
a. 随着训练对象、环境数量的增加,该策略在不可见对象、环境上的性能持续提高;
b. 训练对象、环境越多,每个对象、环境需要的演示就越少;
c. 对象、环境泛化相对容易实现。性能曲线的初始斜率非常陡峭;
d. 虽然增加演示的比例最初会提高性能,但这种提高会很快消失,因为达到一定阈值性能面临饱和;
e. 在这两项任务中,环境概括比物体概括更具挑战性。
环境对象对
图5 | 跨环境和物体的泛化
图6 | 演示数量
a. 当环境和对象的数量固定时,演示的数量和策略的泛化性能之间没有明确的幂律关系。虽然随着演示次数的增加,性能最初会迅速提高,但最终会趋于平稳;
b. 尽管概括新的环境和对象更具挑战性,但在增加环境-对象对的这种情况下,额外演示的好处饱和得更快(如25%和100%演示使用的重叠线所示);
c. 这表明,与单独改变环境或对象相比,同时改变两者增加了数据多样性,导致更有效的策略学习,并减少了对演示数量的依赖。
图7 | 每个环境中的多个对象
数据是跨M个环境和N个操作对象收集的,每个环境中的每个对象都有K个演示。
其试图回答的主要问题是:对于一个给定的操纵任务,如何最优地选择M、N和K,以确保策略的强泛化,而不招致过度费力的数据收集过程?
a. 当环境数量较少时,在每个环境中收集多个对象会提高性能。然而,随着环境数量的增加,在每个环境中收集多个对象和只收集单个对象之间的性能差距变得可以忽略;
b. 对于大规模数据收集,环境数量通常超过16个,在同一个环境中添加多个对象不会进一步提高策略性能;
c. 在尽可能多的不同环境中收集数据,每个环境中只有一个唯一的对象。当环境-对象对的总数达到32时,通常足以训练一个能够在新环境中操作并与以前看不见的对象交互的策略。
普适性
a. 为了验证其的数据收集策略的普遍适用性,他们将其应用于新的任务,并评估是否可以训练出一个足够通用的策略。并尝试了两项新任务:叠毛巾和拔下充电器。
b. 在两个新任务上实现这种强大的泛化性能只需要四个数据收集器收集一个下午的数据。这突出了其的数据收集策略的高效率,能够zero-shot部署到新环境和对象,这种单任务策略所需的时间和成本是适中的。
模型的扩展
图8 | Pour Water实验
a. 他们的模型由一个视觉编码器和一个行为扩散模型。
b. 预训练和完全微调对于视觉编码器都是至关重要的,增加可视编码器的尺寸显著提高了性能。
c. 与预期相反,扩展行动扩散U-Net不会产生性能改进。说明小型U-Net的容量可能已经足以对当前的动作分布进行建模,或者他们还没有为动作扩散确定一个可扩展的架构或算法。
这篇文章的实验揭示了一个有趣的现象:
在机器人学习中,环境多样性就像是策略的"环球旅行券"——带它见识过32个不同环境后,就能从容应对各种新场景。相比之下,单纯增加示范数量更像是填鸭式补习,收效甚微。这些发现不仅为高效数据收集提供了实用指南,更暗示着机器人要变得更聪明,关键不在于"死记硬背",而在于"见多识广"。
展望未来,如何让策略在"环球旅行"中同时掌握多项技能,将成为下一个值得探索的趣味课题。毕竟,谁不想要一个既能泡咖啡又会叠衣服的机器人管家呢?
在机器人操作任务中,实现高精度抓取策略已成为推动具身智能系统走向实用化的核心瓶颈之一。尽管近年来基于视觉输入的端到端模型取得了不小的进展,但在动态环境中实现空间泛化能力仍面临显著挑战。
究其根源,一方面是获取足够空间多样性的真实世界数据开销巨大,另一方面则是模拟环境生成的数据在迁移到现实场景中时往往遭遇所谓的 Sim2Real 视觉鸿沟。
而为了解决这个两难问题,接下来清华大学计算机系朱军教授团队则提出了——ManiBox。
ManiBox
清华大学计算机系朱军教授团队提出了一个看似“朴素”、实则结构精巧的方法——ManiBox。
它不再让机器人“看图说话”,而是引入边界框引导的状态建模策略,通过一个模拟驱动的教师-学生架构,在避免高维图像依赖的同时,实现了低维状态空间中的策略泛化与零样本现实迁移。
可以说,它让“泛化”这件事,真正变成了有迹可循的工艺流程,而不再是靠“大力出奇迹”。
图9 | ManiBox框架图
背景与动机
a. 学习精确的抓取策略对于在复杂的现实世界操作任务是至关重要的;
b. 当在不同的环境中部署机器人时,例如在不同的家庭中,机器人必须在不同的平台上处理各种对象,这样的一般化是至关重要的。在这些不同的空间条件下成功执行的能力是必不可少的,因为现实世界中的对象很少固定在某个位置,有效的操作需要适应广泛的空间挑战;
c. 这种空间泛化的挑战主要源于充分的空间理解所需的大量数据;
d. 用真实的机器人收集这种数据是非常昂贵的,并且依赖模拟数据通常会导致部署时的sim2real gap;
e. 对不完美或有噪声的感知数据时,系统稳定非常重要。为了进一步增强机器人管理不可预测情况的能力并确保可靠的实际性能,他们将重点转移到基于状态的策略归纳,而不是仅仅依赖基于视觉的方法。
图10 | ManiBox示意图
ManiBox框架
ManiBox采用教师-学生框架,结合边界框(Bounding Box)引导的策略,分为以下步骤:
-
教师策略训练:
(1)在仿真环境中使用强化学习(PPO算法)训练教师策略,利用特权信息(如物体精确位置)生成多样化的抓取轨迹;
(2)通过域随机化(随机化物体位置、大小等)增强数据多样性。
-
仿真数据生成:
(1)教师策略生成大规模轨迹数据,用边界框代替高维视觉输入。
(2)Lemma 1证明空间泛化所需数据量与空间体积呈幂律关系;Lemma 2证明多视角边界框可唯一确定物体的3D位置。
-
学生策略蒸馏:
(1)学生策略基于边界框和本体感知数据训练,通过随机掩码(模拟检测失败)提升鲁棒性。
(2)使用LSTM网络处理时序信息,实现零样本迁移到真实机器人。
-
实验与结果
(1)空间泛化与数据量的关系:
i. 实验表明,抓取成功率与数据量遵循Michaelis-Menten动力学(饱和效应),泛化更大空间需要更多数据(幂律关系)。
图11 | 在不同空间范围内测量的掌握任务中空间泛化与数据量之间的尺度关系
ii.泛化到34,400 cm³空间需约2万条轨迹。
图12 | 达到80%的掌握成功率所需的空间体积和数据量之间的关系
(2)真实世界测试:
i. ManiBox在多样化物体、背景和空间位置中表现优异(成功率70%-100%),显著优于视觉基线(如ACT在动态空间中失败)。
ii. 支持开放词汇检测(如YOLO-World),适应新物体和复杂场景(如动态光照、多物体干扰)。
图13 |在不同背景、物体和位置上的泛化能力
贡献与意义
a. 提出边界框引导的抓取策略,解决视觉泛化瓶颈;
b. 通过仿真数据生成揭示数据量与空间泛化的幂律关系;
c. 在真实环境中展现强适应性,为机器人部署提供低成本解决方案。
局限性与未来方向
a. 依赖视觉模型:边界框的准确性受限于检测模型(如YOLO-World),可能影响抓取精度。
b. 复杂任务扩展:当前方法适用于凸物体,未来可结合分割模型(如SAM)处理柔性物体或流体。
c. 多任务泛化:需探索如何结合人类演示或状态机完成更复杂任务(如折叠衣物)。
综上所述,ManiBox 的贡献不仅在于提出了一种有效提升空间泛化能力的抓取策略框架,更在于它构建了一种可扩展的、低维可解释的策略学习路径。
其核心创新在于:
(1)利用边界框作为低维状态表示,实现了从模拟环境到真实环境的零样本迁移;
(2)通过引入状态驱动的教师策略,在模拟中生成大规模高质量轨迹数据,极大缓解了现实数据采集的成本问题;
(3)系统性地刻画了空间体积与数据需求之间的幂律关系,并发现抓取成功率随数据增长呈现出类米氏动力学(Michaelis-Menten kinetics)的饱和趋势,为后续政策训练提供了量化指导。
在这个“越看越糊、越抓越偏”的现实中,ManiBox 给出的解法是一种从感知约简到策略泛化的清晰路径,也为数据驱动的空间智能提供了可扩展、可验证的理论和实践基础。
总结
这两篇工作分别从数据结构维度与表征迁移维度出发,提供了对机器人泛化本质的深刻洞察:
-
第一篇文章的数据缩放研究明确指出:要想让策略在新环境、新对象上稳如老狗,最关键的是数据的多样性结构而非单一数量累加。也就是说,策略不怕“吃得少”,但怕“吃得太单一”。
-
第二篇ManiBox 则通过将高维视觉抽象为低维边界框状态,引入结构化感知与时间建模,实现了零样本的空间泛化与对视觉噪声的鲁棒性迁移。
两者共同构成了机器人学习中“泛化”的双引擎:
-
一端是多样性驱动的数据基础,
-
另一端是低维有效的策略归纳结构。
它们告诉我们,在构建具身智能体的未来中,策略的聪明不靠死记硬背的重复,而来自对环境复杂性分布的理解与建模。
或许终有一天,我们的机器人不需要再背下每一种杯子的模样,而只需“看几眼世界的样子”,便能从容泡咖啡、理发、甚至和你打场乒乓球。
那个未来,已经不再将只是堆数据的竞赛,更是一次“智能结构”与“世界多样性”的双向奔赴。