❤机器之芯❤
机器人的动作往往略显笨拙,机械感太重。现在,它们可以像人一样灵活了。
近年来,机器人领域涌现出许多有趣的进展,比如机器狗会跳舞,会踢足球,双足机器人搬东西。通常这些机器人都依赖于根据感官输入生成控制策略。尽管这种方法避免了开发状态估计模块、建模对象属性和调整控制器增益方面的挑战,但需要大量的领域专业知识。即使取得了诸多进展,但学习瓶颈让机器人难以执行任意任务,无法实现通用的目标。
要了解机器人学习的关键,一个核心的问题是:我们如何收集机器人的训练数据?一种方法是通过自监督的数据收集策略收集有关机器人的数据。虽然这种方法比较稳健,但即使对于相对简单的操作任务,通常也需要数千小时与真实世界交互的大量数据。另一种是在模拟数据上进行训练,然后迁移到真实机器人(Sim2Real)。这允许机器人以快几个数量级的速度学习复杂的机器人行为。然而,设置模拟机器人环境和指定模拟器参数通常需要广泛的领域专业知识。
实际上还有第三种方法,收集训练数据还可以要求人类教师提供演示,然后训练机器人快速模仿人类的演示。这种模仿方法最近在各种具有挑战性的操作问题中显示出巨大的潜力。然而,这些工作中的大多数都存在一个根本性的限制——为机器人收集高质量的演示数据是很困难的。
基于上述问题,来自纽约大学和 Meta AI 的研究者提出了 HOLO-DEX,这是一个收集演示数据和训练灵巧机器人的新框架。它使用 VR 头显(例如 Quest 2)将人类教师置于身临其境的虚拟世界中。在这个虚拟世界中,教师可以从机器人的眼睛中查看机器人「看到」的场景,并通过内置的姿势检测器控制 Allegro 机械手。
看起来就像是人「手把手」教机器人做动作
HOLODEX 允许人类通过低延迟的观察反馈系统为机器人无缝提供高质量的演示数据,它有以下三个优点:
-
与自监督的数据收集方法相比,HOLODEX 基于强大的模仿学习技术,可以在没有奖励机制的情况下快速训练;
-
与 Sim2Real 方法相比,学得的策略可以直接在真实机器人上执行,因为它们是在真实数据上训练的;