发表时间:5 Jun 2024
论文链接:https://readpaper.com/pdf-annotate/note?pdfId=2408639872513958656¬eId=2408640378699078912
作者单位:Rutgers University
Motivation:学习一个通用的policy,可以执行一组不同的操作任务,是机器人技术中一个有前途的新方向。然而,现有技术仅限于学习策略,该策略只能执行训练期间遇到的任务,并且需要大量演示来学习新任务。另一方面,人类通常可以从单个未注释的演示中学习新任务。
如上面的动机图:Kuka 机器人的任务是拿起杯子并将其倒入碗中,使用单个演示来拾取和倾倒不同位置的不同杯子,IMOP的核心是估计和匹配给定任务的不变区域的能力。
解决方法:在这项工作中,我们提出了不变性匹配一次性策略学习 (IMOP) 算法。与直接学习末端执行器姿态的标准实践相比,IMOP首先学习给定任务的状态空间的不变区域,然后通过匹配演示和测试场景之间的不变区域来计算末端执行器的姿态。
特点:
-
不用微调,直接泛化到新的任务。IMOP can perform one-shot sim-to-real transfer using a single real-robot demonstration.
-
在这项工作中,我们提出了不变区域的概念。我们没