2024/2/24: 模仿学习 Eliciting Compatible Demonstrations for Multi-Human Imitation Learning

原创

已于 2024-02-24 17:50:11 修改 · 913 阅读

·

18

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2024-02-24 17:47:50 首次发布

研究者提出一种在线交互式模仿学习框架，通过测量新演示与基础策略的兼容性，避免引入不兼容数据。方法包括兼容性度量模型和主动引出兼容演示，实验证明这能有效提高机械臂在模拟和真实环境中的任务成功率。同时，算法也考虑了人类操作员的参与和反馈，优化演示数据质量。

CoRL2022 Poster
Author: Kanishk Gandhi, Siddharth Karamcheti, Madeline Liao, Dorsa Sadigh
Keywords: Interactive Imitation Learning, Active Demonstration Elicitation, Human Robot Interaction

1. Abstract

利用专家数据进行模仿学习是机器人学习操作的强大方法。但人工提供的数据往往具有同质性、低方差特点，反映出对应任务以及最优策略的单一。但是人类的行为是具有异质性，一种任务可以有不同解。本文提出一种在线交互式模仿学习框架，通过迭代收集新的演示数据不断改进策略。

为了防止新加入的演示不兼容，这项工作设计了一种方法：1）在给定基本策略的情况下测量新演示的兼容性，以及 2）主动从新用户那里引出更兼容的演示。在机械臂实验中验证了可以通过事后过滤来识别不兼容的演示，并应用兼容性度量来主动从新用户那里引出兼容的演示，从而提高模拟和真实环境中的任务成功率。

2. Method

2.1 Learning to Measure Compatibility in Multi-Human Demonstrations

兼容性测量模型 $M\mathcal{M}$ ：估计基础策略 $πbase\pi_{base}$ 在基础数据集 $D_{base}$ 与新数据集 $D_{new}$ 上的性能

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。