点云至关重要:重新思考不同观测空间对机器人学习的影响
在这项研究中,我们探讨了不同观测空间对机器人学习的影响,重点关注了三种主要的模态:RGB、RGB-D和点云。通过在超过17个不同的接触丰富的操作任务上进行广泛实验,涉及两个基准和模拟器,我们观察到一个显著的趋势**:基于点云的方法,即使是设计最简单的方法,在性能上经常超过其RGB和RGB-D的对应物。**这一趋势在两种情况下保持一致:从头开始训练和利用预训练。此外,我们的发现表明,基于点云的观测有助于在各种几何和视觉线索方面实现改进的零样本泛化,包括摄像机视角、光照条件、噪声水平和背景外观。研究结果表明,3D点云是复杂机器人任务中有价值的观测模态。我们将开源所有的代码和检查点,希望我们的见解能够帮助设计更具泛化性和鲁棒性的机器人模型。
图1. 点云在摄像机视角和视觉变化方面具有更好的零样本泛化能力。第一行:使用从头开始训练的编码器(左)和具有SOTA PVRs(右)的不同观测的零样本摄像机视角泛化。第二行:在不同未见过的光照条件(左)和渲染噪声水平(右)上的零样本泛化。第三行:使用从头开始训练的编码器(左)和PVRs(右)在不同背景颜色下的零样本结果。详细的解释和分析可在第6节找到。
图2. 本研究概述。我们研究了不同观测空间(具体为RGB、RGB-D和点云)对机器人学习的影响。在这个评估中,我们选择了流行且先进的方法,以及预训练表示,并使用它们来训练一个基于动作分块的变压器策略网络。通过两个广泛使用的模拟器和基准,在17个接触丰富的任务上对这种方法进行评估。
图5. 不同光照条件的示例。从左到右的光强分别为0.03、0.6、0.15、0.3。