前言:
该论文提出了一个面向双机械臂机器人任务的全新基准框架,通过生成式数字孪生技术解决机器人训练数据稀缺与仿真-现实差距问题。以下是核心内容和技术产品的总结:
论文核心内容
框架设计
- 提出基于3D生成基础模型和大型语言模型(LLMs)的数字化孪生系统,仅需单张2D图像即可生成多样化的3D物体模型和交互场景。
- 开发空间关系感知的代码生成框架,通过LLM分解复杂任务、推断空间约束(如工具功能轴对齐),并生成可执行的机器人动作代码。
- 构建包含15种双机械臂协作任务的标准化基准(如锤击、物体堆叠、鞋盒整理等),整合仿真与真实世界数据,支持策略评估。
关键技术突破
- 真实到仿真的数据生成:从2D图像生成高保真3D模型(含几何、法线、纹理),并通过特征点匹配实现同类物体的自动标注迁移。
- 双机械臂协同优化:支持同步运动、独立操作和动态避撞,通过螺旋运动插值算法生成无碰撞轨迹。
- 仿真到现实的策略迁移:实验表明,使用300条仿真数据预训练+20条真实数据微调的策略,单臂任务成功率提升70%,双臂任务提升40%以上。
实验结果
- 在开源平台COBOT Magic Robot上验证,3D输入策略(DP3)在复杂任务(如物体堆叠)中表现优于传统2D方法。
- 高难度任务(如悬挂马克杯)仍存在挑战,突显双机械臂协调算法的改进空间。
涉及的主要技术与产品
硬件平台
COBOT Magic Robot:开源四臂机器人平台,搭载Intel RealSense D435 RGBD摄像头,支持真实与仿真环境数据采集。
仿真工具
ManiSkill:基于GPU加速的机器人仿真平台,用于大规模数据生成。
SAPIEN:物理仿真引擎,支持高精度物体交互模拟。
生成模型
Rodin 3D生成平台(Deemos):从2D图像生成3D模型,支持几何、纹理和物理属性。
Stable Diffusion XL Turbo:用于生成多样化的2D物体变体图像。
GPT-4V:分析图像生成物体描述,辅助3D建模。
算法与基准
Diffusion Policy:基于扩散模型的机器人模仿学习算法,支持2D/3D输入。
3D Diffusion Policy(DP3):结合点云输入的3D策略版本,优化空间感知。
RoboTwin Benchmark:开源的双机械臂任务评估体系,覆盖单臂/双臂协作场景。
数据与标注工具
空间标注框架:自动标注物体功能点(如锤头接触点)、功能轴(如敲击方向轴),支持LLM任务分解。
实际意义
- 降低数据成本:通过生成式模型减少对昂贵人工示教数据的依赖。
- 提升泛化能力:多样化仿真数据帮助策略适应现实场景的物体形态和位置变化。
- 推动标准化:首个专注于双机械臂协作的开放基准,促进算法横向对比与迭代。
论文下载链接:https://arxiv.org/pdf/2409.02920