CoRL2022 Poster
Author: Kanishk Gandhi, Siddharth Karamcheti, Madeline Liao, Dorsa Sadigh
Keywords: Interactive Imitation Learning, Active Demonstration Elicitation, Human Robot Interaction
1. Abstract
利用专家数据进行模仿学习是机器人学习操作的强大方法。但人工提供的数据往往具有同质性、低方差特点,反映出对应任务以及最优策略的单一。但是人类的行为是具有异质性,一种任务可以有不同解。本文提出一种在线交互式模仿学习框架,通过迭代收集新的演示数据不断改进策略。
为了防止新加入的演示不兼容,这项工作设计了一种方法:1)在给定基本策略的情况下测量新演示的兼容性,以及 2)主动从新用户那里引出更兼容的演示。在机械臂实验中验证了可以通过事后过滤来识别不兼容的演示,并应用兼容性度量来主动从新用户那里引出兼容的演示,从而提高模拟和真实环境中的任务成功率。
2. Method
2.1 Learning to Measure Compatibility in Multi-Human Demonstrations
兼容性测量模型M\mathcal{M}M:估计基础策略πbase\pi_{base}πbase在基础数据集DbaseD_{base}Dbase与新数据集DnewD_{new}Dnew上的性能
M={ 1−min((πbace(snew)−ane

研究者提出一种在线交互式模仿学习框架,通过测量新演示与基础策略的兼容性,避免引入不兼容数据。方法包括兼容性度量模型和主动引出兼容演示,实验证明这能有效提高机械臂在模拟和真实环境中的任务成功率。同时,算法也考虑了人类操作员的参与和反馈,优化演示数据质量。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



