RT-Sketch:基于手绘草图的目标条件模仿学习
摘要:在目标条件模仿学习(imitation learning,IL)中,自然语言和图像通常被用作目标表示。然而,自然语言可能存在歧义,图像则可能过于具体。在这项工作中,我们研究将手绘草图作为一种目标指定方式。草图和语言一样,用户可以轻松即时提供,但与图像类似,它也能帮助下游策略具备空间感知能力,甚至超越图像,区分与任务相关和不相关的对象。我们提出了 RT-Sketch,这是一种用于操作任务的目标条件策略,它将所需场景的手绘草图作为输入,并输出动作。我们在一个包含成对轨迹和相应合成生成的目标草图的数据集上训练 RT-Sketch。我们在一个可铰接的台面上进行的六个涉及桌面物体重新排列的操作技能任务中评估了这种方法。实验发现,在简单场景中,RT-Sketch 的表现与基于图像或语言条件的智能体相似,而在语言目标存在歧义或有视觉干扰的情况下,它表现出更强的鲁棒性。此外,我们展示了 RT-Sketch 能够解释并根据不同详细程度的草图采取行动,从简单的线条画到详细的彩色画。有关补充材料和视频,请访问我们的网站。
1. 引言
在家庭、工作场所或工业环境中与人类协同工作的机器人,在提供协助和实现自主作业方面有着巨大潜力。但需要仔细考虑,哪种目标表示方式最便于人类传达给机器人,同时也便于机器人理解并据此行动。具有指令跟随能力的机器人,试图通过将自然语言命令这一直观界面,作为语言条件模仿学习策略的输入,来解决这一问题(Brohan 等人,2023b;a;Karamcheti 等人,2023;Lynch 和 Sermanet,2020;Lynch 等人,2023)。例如,想象让一个家用机器人摆好餐桌。像 “把餐具、餐巾和盘子放在桌子上” 这样的语言描述就不够精确或存在歧义。餐具相对于盘子或餐巾的具体摆放位置并不明确,它们之间的距离是否重要也不清楚。为了达到更高的精度,用户可能需要给出更详细的描述,比如 “把叉子放在盘子右边 2 厘米处,距离桌子最左边边缘 5 厘米”,甚至需要在线修正(“不,你往右移得太远了,往回移一点!”)(Cui 等人,2023;Lynch 等人,2023)。虽然语言是指定目标的直观方式,但其定性的本质和模糊性,使得人类如果不给出冗长的说明或修正,就很难提供准确信息,也让机器人策略难以在下游精确操作中进行解释。
另一方面,