2024/2/24: 模仿学习 Eliciting Compatible Demonstrations for Multi-Human Imitation Learning

研究者提出一种在线交互式模仿学习框架,通过测量新演示与基础策略的兼容性,避免引入不兼容数据。方法包括兼容性度量模型和主动引出兼容演示,实验证明这能有效提高机械臂在模拟和真实环境中的任务成功率。同时,算法也考虑了人类操作员的参与和反馈,优化演示数据质量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

CoRL2022 Poster
Author: Kanishk Gandhi, Siddharth Karamcheti, Madeline Liao, Dorsa Sadigh
Keywords: Interactive Imitation Learning, Active Demonstration Elicitation, Human Robot Interaction

1. Abstract

利用专家数据进行模仿学习是机器人学习操作的强大方法。但人工提供的数据往往具有同质性、低方差特点,反映出对应任务以及最优策略的单一。但是人类的行为是具有异质性,一种任务可以有不同解。本文提出一种在线交互式模仿学习框架,通过迭代收集新的演示数据不断改进策略。

为了防止新加入的演示不兼容,这项工作设计了一种方法:1)在给定基本策略的情况下测量新演示的兼容性,以及 2)主动从新用户那里引出更兼容的演示。在机械臂实验中验证了可以通过事后过滤来识别不兼容的演示,并应用兼容性度量来主动从新用户那里引出兼容的演示,从而提高模拟和真实环境中的任务成功率。

2. Method

2.1 Learning to Measure Compatibility in Multi-Human Demonstrations

兼容性测量模型M\mathcal{M}M:估计基础策略πbase\pi_{base}πbase在基础数据集DbaseD_{base}Dbase与新数据集DnewD_{new}Dnew上的性能

M={1−min⁡((πbace(snew)−anew)2λ,1)if novelty(snew)<η1otherwise.\mathcal{M}=\begin{cases}1-\min\left(\frac{(\pi_{\mathrm{bace}}(s_{\mathrm{new}})-a_{\mathrm{new}})^2}\lambda,1\right)&\text{if novelty}(s_{\mathrm{new}})<\eta\\1&\text{otherwise.}\end{cases} M={1min(λ(πbace(snew)anew)2,1)1if novelty(snew)<ηotherwise.
其中novelty则是采用πbase\pi_{base}πbase对状态预测动作的标准差衡量。由定义可以看出,当新演示状态的novelty足够高(≥η\geq\etaη)或者πbase(snew)=anew\pi_{\mathrm{base}}(s_{\mathrm{new}})=a_{\mathrm{new}}πbase(snew)=anew兼容性度量值为1。而当(πbase(snew)−anew)2≥λ(\pi_{\mathrm{base}}(s_{\mathrm{new}})-a_{\mathrm{new}})^{2}\geq\lambda(πbase(snew)anew)2λ时兼容性度量值0。

2.2 Actively Eliciting Compatible Demonstrations

该章节提出如何主动引入兼容演示数据。首先为操作员提供任务规范说明,例如“将锤子放进抽屉”,以及提供三组episodes的练习,然后进行主动启发过程。该过程如下图所示。

在这里插入图片描述
当完成新数据的收集后,采用BC将πbase\pi_{base}πbase更新至新策略。

总结

提出了一种交互式IL算法,将新的演示内嵌到现有的数据集,使其不损害现有的策略。是否内嵌由演示与现有策略的相似性和兼容性决定。算法还提出向人类操作员提供在线反馈,告诉他们如何更好地记录演示。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值