2024/2/23:VLM与模仿学习:RoboCLIP: One Demonstration is Enough to Learn Robot Policie

本文介绍了一种新的在线模仿学习方法RoboCLIP,它利用预训练的视频和语言模型(S3D)生成奖励,无需大量数据和手动设计奖励函数。实验证明,RoboCLIP在机器人操作任务中表现出色,尤其在零样本条件下优于其他模仿学习方法。然而,文章也指出存在隐式偏差和微调稳定性等问题,未来研究需关注模型长度的灵活性。

Abstract

强化学习中优质的奖励函数设定重要但非常困难。模仿学习通过专家演示数据一定程度避开该设定,但需要大量高质量的数据,这在现实环境中获取困难。

视频和语言模型 (VLM) 利用海量的图像-文本对数据训练,捕捉任务中视觉-语言关联,能实现zero-shot。本文启发于VLM推出 RoboCLIP,这是一种在线模仿学习方法,它以视频演示或文本描述的形式使用单个演示(克服大数据要求)。无需手动设计奖励函数即可生成奖励的任务。此外,RoboCLIP 还可以利用域外演示,例如人类解决奖励生成任务的视频,从而避免了具有相同演示和部署域的需要。RoboCLIP 利用预先训练的 VLM,无需任何微调即可生成奖励。使用 RoboCLIP 奖励训练的强化学习代理在下游机器人操作任务上表现出比竞争模仿学习方法高 2-3 倍的零样本性能,仅使用一个视频/文本演示即可实现这一点。

NIPS2023

Method

在这里插入图片描述
Roboclip选取的VLM模型是已经预训练好的S3D。由于预训练S3D的数据集Howto100M为32帧,文章对序列数据下采样到T=32,并中心裁剪为(250,250)。
演示与真实交互序列分别经过VLM模型embedding后,得到两个向量,通过计算二者的相似度(Similarity作为奖励值
z v = S 3 D video-encoder ( o 0 : T ) \mathbf{z}^v=S3D^{\text{video-encoder}}(\mathbf{o}_{0:T}) zv=S

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值