穆尧团队最新！RoboTwin 2.0：用于鲁棒双臂操作的可扩展数据基准-优快云博客

点击下方卡片，关注“具身智能之心”公众号

作者丨Tianxing Chen等

编辑丨具身智能之心

本文只做学术分享，如有侵权，联系删文

>>点击进入→具身智能之心技术交流群

更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球(戳我)，这里包含所有你想要的。

天行和muyao大佬团队出品的2.0工作，看看有哪些创新点和惊喜吧~

Webpage: https://robotwin-platform.github.io/

arXiv：https://arxiv.org/abs/2506.18088

Code: https://github.com/RoboTwin-Platform/RoboTwin

Document: https://robotwin-platform.github.io/doc/

Title：RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation

动机与出发点

基于仿真的数据合成已成为增强现实机器人操作的强大范式。然而，现有合成数据集在鲁棒双手机器人操作方面仍显不足，主要面临两大挑战：(1) 缺乏针对新任务的高效、可扩展数据生成方法；(2) 仿真环境过于简化，无法捕捉现实世界的复杂性。RoboTwin 2.0是一个可扩展的仿真框架，支持自动、大规模生成多样化且逼真的数据，并为双臂操作提供统一评估协议。

首先构建了RoboTwin-OD，这是一个大规模物体库，包含147个类别的731个实例，每个实例都标注了语义和操作相关标签。在此基础上，开发了一个专家数据合成pipeline，将多模态大语言模型(MLLMs)与仿真闭环优化相结合，自动生成任务级执行代码。为提高仿真到现实的迁移能力，RoboTwin 2.0引入了五个维度的结构化域随机化：杂乱程度、光照、背景、桌面高度和语言指令，从而增强数据多样性和策略鲁棒性。

在50个双臂任务中实例化了该框架，覆盖五种机器人实体，并预收集了超过10万条域随机化专家轨迹。实证评估显示，代码生成成功率提高了10.9%，对新现实条件的泛化能力增强。在数据集上微调的视觉-语言-动作(VLA)模型在未见场景的真实任务上实现了367%的相对提升(42.0% vs. 9.0%)，而仅在合成数据上训练的零样本模型实现了228%的相对增益，展示了无需现实监督的强泛化能力。

数据生成器、基准、预收集数据集和代码：https://robotwin-platform.github.io/

背景介绍

双手机器人操作对于使机器人能够执行复杂现实任务至关重要，如协作装配、工具使用和物体交接。开发可泛化的双手策略：尤其是VLA基础模型，需要同时具备高质量、多样性和大规模的数据集。若缺乏物体几何、场景杂乱、光照条件、指令语言和机器人实体的足够可变性，学习到的策略往往会过拟合到狭窄分布，无法泛化到新环境或硬件平台。

然而，大规模收集现实演示仍然成本高昂、耗时且在物流上具有挑战性，尤其是在覆盖广泛任务、物体和实体时。基于仿真的数据生成提供了收集大规模多模态数据集的可扩展替代方案，并已显示出支持仿真到现实迁移的潜力。然而，现有pipeline在三个关键方面存在不足：

首先，它们缺乏自动质量控制：没有专家级验证闭环，许多生成的轨迹包含执行失败或次优抓取，这会降低策略学习效果。其次，它们的域随机化往往流于表面，产生过于干净和同质的场景，忽略了现实世界的关键因素，如杂乱、光照变化和模糊语言指令——这些都是鲁棒仿真到现实迁移的关键元素。第三，它们忽视了跨实体变化：不同双手平台的运动能力和抓取策略可能存在显著差异。

为应对这些挑战，我们引入RoboTwin 2.0，这是一个基于仿真的数据生成框架，旨在为双臂操作生成高质量、多样化、逼真且交互丰富的数据集。RoboTwin 2.0集成了三个关键组件：

(1) 自动专家数据生成pipeline，利用多模态大语言模型(MLLMs)和仿真闭环反馈，迭代验证和优化任务执行代码；

(2) 全面的域随机化，涵盖语言指令、物体杂乱、背景纹理、光照条件和桌面配置，旨在缩小仿真与现实的差距并增强策略泛化能力；

(3) 实体感知适应，其中物体功能被标注，机器人特定动作候选被生成，以考虑异构双手运动学。

RoboTwin 2.0方法

图2中展示了RoboTwin 2.0的整体pipeline。该框架从任务代码生成模块开始，利用多模态大语言模型(MLLMs)和仿真闭环反馈，从自然语言指令自动合成可执行任务计划。该模块基于大规模物体资产库(RoboTwin-OD)和预定义技能库，支持在广泛物体类别和操作场景中进行可扩展任务实例化。

为确保高质量专家演示，我们将此自动生成pipeline与RoboTwin 2.0的全面域随机化方案集成，该方案沿语言、视觉和空间轴多样化观察。此pipeline支持合成多样化和逼真的训练数据，促进开发对现实环境可变性具有鲁棒性的操作策略。

1）通过MLLM和仿真闭环反馈的专家代码生成

语言模型的最新进展已证明其能够为复杂机器人任务生成中间任务表示，如文本计划、API调用或可执行代码。多模态大语言模型(MLLMs)通过整合视觉和本体感受信号扩展了这一能力，支持对现实感官输入进行更基础的推理。

在此基础上，2.0提出了一个自动专家数据生成pipeline，将程序化代码合成与多模态执行反馈相结合，以生成高质量操作程序。系统通过闭环架构运行，包含两个AI agent：代码生成agent和视觉-语言模型(VLM)观察者。通过在仿真环境中执行和监控代码，观察者系统地检测执行失败并提出修正，使代码生成agent能够迭代优化任务程序。此反馈循环促进了鲁棒、自我改进专家数据的生成，只需最少人工监督。

2）用于鲁棒机器人操作的域随机化

为提高策略对现实环境可变性的鲁棒性，在五个关键维度应用域随机化：(1) 与任务无关物体的杂乱放置，(2) 背景纹理，(3) 光照条件，(4) 桌面高度，(5) 多样化语言指令。这种系统性多样化丰富了训练数据分布，并显著提高了对未见场景的泛化能力。

场景杂乱：为提高策略对环境变化的鲁棒性，通过在工作空间中随机填充与任务无关的干扰物体来引入杂乱桌面场景。利用内部构建的物体资产库RoboTwin-OD，该库包含147个类别的731个完全标注物体，我们在数据生成期间合成多样化且语义丰富的杂乱场景。每个物体都标注有放置点，支持通用放置API，可将任意物体插入场景并具有语义有效姿势。

多样化背景纹理：通过程序方法和生成模型生成的大型纹理库来随机化桌面表面和周围背景。这使策略暴露于广泛的视觉分布，并减轻对干净合成环境的过拟合。为构建此纹理库，首先利用大语言模型(LLM)结合网络爬取，收集1,000个描述现实表面外观的多样化文本提示，风格、颜色和粒度各异。

光照变化：现实环境表现出显著的光照可变性，包括色温、光源类型(如点光源、区域光源)、光源数量和空间配置的差异。此类变化会改变2D视觉输入中的物体外观、阴影和反射，给基于视觉的操作策略带来挑战。为提高在多样化光照条件下的鲁棒性，我们在仿真pipeline中应用光照随机化。

桌面高度：在现实环境中，操作平台(通常是桌子)的高度可能因工作空间布局和硬件配置的不同而变化。这些变化会影响机器人感知、运动学和交互策略，使策略泛化更具挑战性。为提高对这种物理差异的鲁棒性，我们在仿真期间随机化桌面高度。

轨迹级多样化语言指令：为提高策略对自然语言变化的鲁棒性，我们使用多模态大语言模型自动生成多样化任务指令和物体描述。这些包括(i) 任务指令模板和(ii) 反映几何、外观和部件级属性的物体描述。

3）实体感知抓取适应

由于自由度和运动学结构的差异，机器人手臂在相同任务中表现出不同的可达工作空间和偏好操作策略。为解决这些特定于实体的变化，我们为每个物体标注了多样化的操作候选集，涵盖多个抓取轴和接近方向。这确保数据集捕获操作多样性和机器人特定偏好。

对于每个物体，我们通过合并偏好操作方向、随机姿势扰动和并行运动规划尝试来生成候选抓取。此外，我们向具有更高手臂可达性的方向引入角度扰动，进一步扩展可行操作姿势的空间。

RoboTwin 2.0数据生成器、基准和大规模数据集

1）RoboTwin-OD：RoboTwin物体数据集

为增强操作能力和视觉理解，构建了一个具有丰富语义标注的大规模物体数据集，称为RoboTwin-OD，涵盖147个类别和731个多样化物体。这包括使用Rodin平台通过RGB到3D重建内部生成的111个类别的534个实例，随后进行凸分解和网格合并，以确保物理精确的碰撞模型。

为支持学习以物体为中心的交互策略，进一步为每个物体标注关键点轴信息。这些包括放置点、功能点、抓取点和抓取轴方向，显式编码物体功能。与我们的机器人操作API库结合，这些标注支持仿真中的可泛化抓取执行。

2）对灵活实体组合的支持

以物体为中心、与实体无关的数据生成框架支持在广泛的双手机器人系统上无缝部署。该pipeline支持灵活的实体配置，允许异构操纵器和相对手臂放置的任意组合。此设计确保与多样化硬件设置的兼容性，并促进对未来机器人平台的可扩展性。

3）用于数据生成和基准测试的50项任务

基于我们的自动任务生成框架、实体自适应行为合成和大规模物体资产库RoboTwin-OD，构建了一套超过50项的双臂协作操作任务。此外，支持在5个不同机器人平台上进行数据收集和评估，实现操作策略的全面基准测试。

4）预收集的RoboTwin 2.0数据集

在RoboTwin 2.0的50项任务中收集了超过10万条双手操作轨迹，涵盖5种不同的双手实体。对于每个任务-实体对，我们提供100条干净(非随机化)轨迹和400条域随机化轨迹。

RoboTwin 2.0支持广泛的实体配置和场景设置，使其成为大规模机器人数据收集的高度通用框架。它支持在多样化任务和硬件设置中进行高效、自动的轨迹生成，只需最少人工监督。

实验分析

这里也设计了实验以评估RoboTwin 2.0在三个关键方面的有效性：(1) 自动生成高质量操作任务专家代码；(2) 通过多样化训练数据提高策略对环境变化的鲁棒性；(3) 展示RoboTwin 2.0作为评估策略在任务、场景和实体间泛化的标准化基准的实用性和多样性。

1）自动专家代码生成评估

在10项机器人操作任务的套件上评估我们的闭环专家数据生成系统，使用程序化生成并随后在仿真中迭代优化。每项任务都用自然语言指令指定，对于每个系统变体，代码生成agent生成10个候选程序，每个程序执行10次以考虑动力学、控制和感知的随机性。

表1呈现了系统六种配置的评估结果，计算了RoboTwin 1.0和2.0共同支持的任务子集(每项任务的成功率见附录8)。Vanilla设置对应于没有任何迭代修正的单次代码生成。在FB设置中，系统整合来自执行日志的结构化反馈，以修订易失败代码。MM FB配置进一步通过多模态观察增强此过程，允许视觉-语言模型更精确地定位和分类失败。

2）评估有无自适应抓取的效率

为评估实体感知抓取增强策略的有效性，测量了50项RoboTwin 2.0任务在五种不同机器人实体上的自动数据收集任务成功率。结果显示，我们的方法提高了成功率，特别是对于规划空间受限的机器人，在所有实体上平均提高了8.3%。

对于具有大可达工作空间的高自由度手臂，如Franka和UR5(7-DoF)，成功率基本保持不变，表明当机器人已具有足够运动灵活性时，益处有限。然而，对于低自由度平台，如Aloha-AgileX、Piper和ARX-X5(6-DoF)，我们的方法分别带来了13.5%、22.7%和5.6%的显著增益。这些结果表明，我们的方法提供了额外的可行抓取选项，有效缓解了低自由度操纵器的规划限制。