基于语音指令和视频演示的机器人手部运动分割与技能学习集成方法
1. 引言
近几十年来,定制化产品的需求迅速增长,制造过程需根据个人需求进行调整。协作机器人可与人类工人携手完成装配任务,提高任务执行的灵活性。然而,混合系统的应用仍处于起步阶段,面临着机器人编程过程复杂、工人需具备特定机器人专业知识以及每次新任务都需重新编程等问题,这既耗时又增加了生产成本。
学习示范是一种有前景的非专家编程范式。过去几十年,动觉教学在数据收集方面得到了广泛探索,但对于人类工人来说,尤其是多步骤任务,这可能是一项繁琐的工作。随着计算机视觉领域的发展,视觉观察最近受到了更多关注。手部运动可以通过光学传感器进行跟踪和记录,演示中的轨迹随后被分割成基本动作序列,即技能。任务模型被定义为一系列技能。本文将方法 - 时间测量(MTM)中的基本动作(伸手、抓取、移动、定位和释放)视为技能,这样学习到的任务模型在执行过程中可以更灵活地进行优化。例如,在伸手和抓取动作不变的情况下,可以优化移动动作。这种表示方式也有利于将自然语言作为语音指令(如抓取和释放)集成进来,因为它们对于人类说话和机器人执行都可以被视为离散事件。本文的主要贡献包括:
- 提出从3D视频序列中提取手部运动的流程。
- 提出将语音指令与基于速度的运动分割相结合的方法。
- 根据方法 - 时间测量(MTM)定义技能:从语音指令中提取离散技能,从视觉观察中提取连续技能。
2. 相关工作
本节总结了近期关于机器人从视觉观察中学习的文献。丁等人开发了一种用于装配任务的学习策略,通过3D相机跟踪连续的人类手部运动。芬恩等人提出了一种视觉模仿学习方法,使机器人能够从原始像素输入中学习新技能,允许机器人从单次
超级会员免费看
订阅专栏 解锁全文
1095

被折叠的 条评论
为什么被折叠?



