发表时间:CoRL 2018 论文链接:https://readpaper.com/pdf-annotate/note?pdfId=4500197057754718210¬eId=2424798567891365120 作者单位:Imperial College London
Motivation:就像人类一样,机器人应该能够利用来自先前学习任务的知识,以便在新的和不熟悉的环境中快速学习新任务。尽管如此,大多数机器人学习方法都专注于从头开始学习单个任务,泛化概念有限,并且没有利用知识更有效地学习其他任务的方法。一种可能的解决方案是元学习(本文也是采用元学习的训练策略,划分了support set 和 query set),但许多相关方法在扩展到大量任务的能力方面受到限制,并在不忘记先前学习的任务的情况下学习进一步的任务。
解决方法:考虑到这一点,我们引入了任务嵌入式控制网络(包括两个部分,任务嵌入+控制,训练时候是一起优化的),该网络使用来自度量学习的思想来创建一个任务嵌入,该嵌入可以由机器人从一个或多个演示中学习新任务(每个s是一个或者多个任务的平均(类似类别原型))。
实现方式:演示的图像被嵌入到任务的紧凑表示中,可以组合起来创建一个句子sentence。然后将这句话扩展为从该任务的新配置的最新观察,然后以闭环方式通过控制网络发送。任务嵌入网络和控制网络都经过联合优化以产生丰富的embedding。