R3M [25] explores how visual representations obtained by training on diverse human video data using time-contrastive learning and video-language can enable data-efficient learning(实际上就是小样本学习) of downstream robotic manipulation tasks.
发表时间:CoRL 2022
论文链接:https://readpaper.com/pdf-annotate/note?pdfId=4692250363701493761¬eId=2398886211885348608
作者单位:Stanford University, Meta AI
Motivation:我们研究了在不同人类视频数据上预训练的视觉表示如何使下游机器人操作任务的数据高效学习。
解决方法:具体来说,我们使用时间对比学习、视频语言对齐 和 L1 惩罚的组合(这三个技术是本文的核心)使用 Ego4D 人类视频数据集(全球超过70个地点,总共包含超过3500小时的数据)预训练视觉表示,以鼓励稀疏和紧凑的表示。生成的表示 R3M 可以当作冻结感知模块用于下游任务的策略学习。
我们假设基于视觉的机器人操作的良好表示由三个组件组成:
-
首先,它应该包含物理交互所需的信息,因此应该捕获场景的时间动态(即状态如何过渡到其他状态)。
-
其次,它应该优先于语义相关性,应