Human2LocoMan:通过人类预训练学习多功能四足机器人操控

点击下方卡片,关注“具身智能之心”公众号

作者丨Yaru Niu等

编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文


>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

出发点与工作背景

四足机器人虽在复杂环境中移动能力出色,但赋予其可扩展的自主多功能操作技能仍是重大挑战,为此本文提出一种用于四足操作的跨实体模仿学习系统,该系统利用从人类和配备多种操作模式的四足机器人 LocoMan 收集的数据,通过开发远程操作和数据收集管道来统一并模块化人类和机器人的观察空间与动作空间,同时提出高效模块化架构以支持不同实体间结构化模态对齐数据的联合训练和预训练,还构建了首个涵盖单手和双手模式下各种家庭任务的 LocoMan 机器人操作数据集及相应人类数据集;实验在六个真实世界操作任务中验证,与基线相比整体成功率平均提升 41.9%、分布外场景提升 79.7%,利用人类数据预训练后整体成功率提升 38.6%、分布外场景提升 82.7%,且仅用一半机器人数据就能持续实现更好性能。

我们的代码、硬件和数据已开源:https://human2bots.github.io。

一些介绍

尽管四足机器人在复杂环境中移动能力出色且已扩展到操作任务,但实现大规模自主多功能操作仍是主要挑战。模仿学习是通过演示教机器人复杂技能的基础方法,高质量数据获取至关重要,先前工作主要在机械臂、人形机器人和配备顶部机械臂的四足机器人上探索收集域内机器人数据的策略,而在 LocoMan 等四足平台上收集自我中心操作数据未被充分探索。为扩展模仿学习数据收集,近期工作提出利用仿真或人类数据,人类数据已被用于提供高级任务指导、改进视觉编码器等,但在涉及四足等非传统实体操作任务中的有效性尚未验证,且人类与四足机器人之间巨大的实体差距对数据收集和策略迁移构成挑战,因有效的远程操作或人类演示通常需要与目标机器人运动学相似的控制系统或专用末端执行器。

为解决四足机器人实现大规模自主多功能操作面临的挑战,受 LocoMan 平台启发,研究人员提出 Human2LocoMan 框架用于四足操作学习。在数据收集方面,该系统借助扩展现实(XR)头显,收集人类数据时捕捉人类动作并传输第一人称视图,远程操作时传输第一机器人视图;人类数据收集时操作者自然执行任务,远程操作时系统将人类手部动作映射到机器人抓手,头部动作映射到机器人躯干,扩展机器人工作空间和主动感知能力,并将生成的目标姿态传递给全身控制器生成协调动作。此外,为结构化数据和弥合人类与四足机器人的实体差距,系统在共享统一坐标系内对齐两者动作。

与以往用自我中心人类数据预训练视觉编码器、学习交互计划预测,或用与人类运动学相似的机器人数据联合训练模型的工作不同,本研究将人类视为与目标机器人不同的实体,利用人类数据进行模型预训练。鉴于人类和机器人数据映射到统一框架后仍存在动力学差异、机器人额外腕部摄像头等明显差距,研究设计了模块化 Transformer 架构 —— 模块化跨实体 Transformer(MXT),该架构在实体间共享通用 Transformer 主干,同时为共享模态维护实体特定的标记器和去标记器;MXT 策略先在人类数据上预训练,再用少量机器人数据微调,单个预训练模型可通过微调适应不同机器人实体,且方法与先前相关工作正交,架构兼容任何预训练视觉编码器,并支持多实体数据联合训练。在六个跨单手和双手操作模式的家庭任务评估中,该方法相比基线平均提升 41.9%、OOD 场景提升 79.7%,用人类数据预训练使整体成功率提升 38.6%、OOD 场景提升 82.7%,证明了从人类到四足实体的有效正向迁移,凸显了系统在学习多功能四足操作技能及可扩展大规模跨实体学习中的潜力。

Human2LocoMan的系统架构

Human2LocoMan 系统概述

我们研究利用 Apple Vision Pro 头显和 OpenTelevision 系统捕捉人类动作,并向操作者传输第一人称或第一机器人视频,在 VR 头显和 LocoMan 机器人上安装 120 度水平视场的轻型立体相机提供自我中心视图,机器人还可附加额外相机。借助 Human2LocoMan 远程操作系统,人类操作者能控制 LocoMan 机器人在单手和双手模式下执行多功能操作任务,其中单手模式将人类头部动作映射到机器人躯干运动,以扩展工作空间和增强感知。该系统支持收集人类和机器人数据,并转换到共享空间,通过掩码区分实体和操作模式,收集的人类数据用于预训练模块化跨实体 Transformer(MXT)动作模型,远程操作收集的机器人数据则用于微调预训练模型,从而学习预测 LocoMan 末端执行器、躯干 6D 姿态及抓手动作的操作策略。

Human2LocoMan 远程操作与数据收集

人类和 LocoMan 的统一框架:为通过基于 VR 的远程操作将人类动作映射到 LocoMan 的各种操作模式,并增强跨不同实体的动作数据的可迁移性,我们建立了统一参考框架  ,以跨实体对齐动作。如图 2所示,该统一框架附着于安装主相机的刚体。在实体的重置姿态下,x 轴指向前方,与工作空间对齐并平行于地面;y 轴指向左方;z 轴指向上方,垂直于地面。

动作映射:我们将人类腕部动作映射到 LocoMan 的末端执行器动作,将人类头部动作映射到 LocoMan 的躯干动作,将手部姿势映射到 LocoMan 的抓手动作。VR 定义的世界框架中人类手部、头部和腕部姿势的 SE (3) 6D 姿态从 VR 设备流式传输到 Human2LocoMan 远程操作服务器。人类头部姿势表示为   ,腕部姿势为   和   ,其中   表示平移,  表示 VR 定义的世界框架中的旋转。然后,6D 姿态可转换为统一框架   :  ,其中   是 VR 定义框架相对于统一框架   的旋转矩阵。

全身控制器:在时间步 t,机器人目标姿态 由远程操作服务器计算后,发送至 LocoMan 机器人的全身控制器。该控制器是一个统一的全身控制器,其作用在于跨多种操作模式,对躯干、末端执行器和脚部的期望姿态进行跟踪。在具体计算过程中,采用零空间投影实现运动学跟踪,运用二次规划进行动态优化,以此得出期望的关节位置、速度和扭矩。

数据收集:在数据收集环节,研究人员在远程操作过程中对机器人数据 进行记录,其中 由时间步 t 的机器人观察 和机器人动作 构成,T 代表 episode 长度。同时,明确将 分别定义为从机器人主立体相机和腕部相机获取的图像。

模块化跨实体 Transformer

鉴于我们统一的多实体数据收集管道,我们旨在训练一种跨实体策略,其整体结构和大部分参数是可迁移的,同时考虑每个实体特有的模态特定分布。为此,我们提出了一种名为模块化跨实体 Transformer(MXT)的模块化设计。如图 3 所示,MXT 主要由三组模块组成:标记器、Transformer 主干和去标记器。标记器作为编码器,将特定于实体的观察模态映射到潜在空间中的标记,而去标记器将主干的输出标记转换为每个实体动作空间中的动作模态。标记器和去标记器特定于一个实体,并为每个新实体重新初始化,而主干在所有实体间共享,并用于在实体间迁移策略。

训练范式

对于给定任务,我们首先使用人类数据集对模型进行预训练,然后用对应的 LocoMan 数据集进行微调。微调时,仅从预训练检查点初始化 Transformer 主干网络的权重。对于语义相似但操作模式不同的任务(在表 1 中代表不同实体),我们先在跨任务的人类数据集上联合预训练模型(涵盖不同操作模式),再使用对应的 LocoMan 机器人数据集对每个任务进行微调。

预训练和微调均采用行为克隆目标函数。一般来说,给定某实体 e 的数据集 De 和对齐的动作模态 m₁,…,mₖ,在实体 e 上训练时的总优化损失为:  其中 是动作模态 相对于实体 e 数据集的ℓ₁损失。实际中,对每个训练批次 ,我们优化以下批量损失作为 的代理:  其中:

  •  为动作标签序列样本 中第 l 步的模态 动作;

  •  为模型在第 l 步对模态 的预测动作;

  • h 为数据块大小或动作预测范围。

实验

实验设置

任务:使用 Human2LocoMan 系统收集的数据,在 LocoMan 机器人的单手 / 双手操作模式下,对 6 项不同难度的家庭任务评估 MXT:

  • 单手玩具收集(TC-Uni):机器人需拾取矩形区域内随机摆放的玩具并放入地面篮子,涉及抓取和释放动作,使用 10 个物体微调,全部物体用于预训练和评估。

  • 双手玩具收集(TC-Bi):类似 TC-Uni,但玩具位于篮子两侧矩形区域,同样使用 10 个物体微调。

  • 单手鞋架整理(SO-Uni):长时序任务,需整理鞋架不同层的两只鞋,涉及推、敲击等动作,包含 3 双鞋(1 双为 OOD)。

  • 双手鞋架整理(SO-Bi):将第三层边缘的一双鞋向内推并对齐,涉及推和敲击动作。

  • 单手铲取(Scoop-Uni):使用铲子从猫砂盆不同位置铲取 3D 打印猫砂并倒入垃圾桶,涉及工具使用和可变形物体操作,包含抓铲、倾倒等子步骤。

  • 双手倾倒(Pour-Bi):双手操作将乒乓球从一个杯子倒入另一个,需精准抓取杯子并倾倒,涉及拾取、倾倒和放置动作。

Human2LocoMan 实体模式:单手和双手模式在形态、观察空间和动作空间上不同,单手任务使用腕部摄像头。

数据收集:每个任务收集不同数量的人类和机器人轨迹数据,10% 用于验证(具体见附录表 III)。

训练细节:玩具收集和鞋架整理任务中,先利用单 / 双手人类数据联合预训练模型,再用对应机器人数据微调;所有任务使用相同超参数(如批量大小、数据块大小),模型超参数见附录。

基线方法:与以下 SOTA 模仿学习方法对比:

  • 人形模仿 Transformer(HIT):基于 ACT 的解码器架构,同时预测动作序列和图像特征,引入 L2 图像特征损失防止过拟合,仅使用机器人数据训练。

  • 异构预训练 Transformer(HPT):在仿真、真实机器人和人类视频的异构数据上预训练,包含主干和头尾结构;与 MXT 区别在于:MXT 按模态对齐数据并保留模态特异性,而 HPT 使用单一标记器,且冻结图像编码器(MXT 端到端微调)。对 HPT 测试三种设置:仅用 LocoMan 数据、人类数据预训练 + LocoMan 微调、直接微调预训练 checkpoint。

评估指标

  • 成功率(SR):ID 物体测试 24 次,OOD 物体测试 12 次,计算完成所有子步骤的比例。

  • 任务得分(TS):每个子步骤完成得 1 分,达成最终目标额外 1 分,总分由所有测试回合累加。

  • 验证损失:反映模型优化程度,用于对比不同架构训练过程。

结果与分析

Human2LocoMan 系统是否赋予四足机器人多功能操作能力?

  • 数据收集效率:30 分钟内可收集超 50 条机器人轨迹和 200 条人类轨迹,复杂任务 1.5 小时内可收集超 300 条人类轨迹,机器人操作速度接近人类。

  • 任务通用性:支持单手 / 双手、抓取 / 非抓取、可变形物体操作及工具使用,可泛化至 OOD 物体和场景。

  • 任务性能:MXT 在小数据集下表现优异,基线方法也有不错性能,验证了数据质量和训练流程的有效性。

MXT 与 SOTA 模仿学习架构的对比如何?

  • 对比 HIT:多数任务中,未预训练 MXT 与 HIT 性能相当或更优,预训练 MXT 在成功率和任务得分上持续领先;MXT 验证损失更低,训练收敛性更好,在大数据集任务中优势更明显。HIT 在鞋架整理等物体变化少的任务中表现较好。

  • 对比 HPT:MXT 在玩具收集任务的所有预训练和数据规模组合中,成功率和任务得分均优于 HPT;HPT 存在严重过拟合,而 MXT 的模块化设计促进了更好的泛化能力。

Human2LocoMan 收集的人类数据如何提升模仿学习性能?

  • 效率、鲁棒性与泛化性:人类数据预训练显著提升 LocoMan 操作性能,即使机器人数据有限也能保持高性能;预训练帮助 MXT 在 ID 场景(如物体位置多样的任务)中更精准定位目标,在 OOD 场景(如形状 / 颜色差异大的物体)中泛化能力更强。

  • 长时序任务表现:在需多步操作的任务中,预训练 MXT 随任务推进保持较高成功率,而其他方法常在前几步失败,表明人类数据预训练提升了操作精度,关键在于完成顺序性长时序任务。

MXT 的设计是否促进了从人类到 LocoMan 的正向迁移?

  • 跨实体迁移能力:尽管实体差异大,MXT 的验证损失差距和泛化能力优于 HPT;HPT 因缺乏模块化设计和冻结图像编码器性能较差。

  • 模块化设计优势:消融实验显示,模仿 HPT 设计的 MXT-Agg 性能低于 MXT,表明模块化标记器能有效利用人类数据,平衡网络表示能力和迁移性,避免过拟合。

局限

我们的系统为四足机器人的跨实体操作和高效数据收集引入了一种新方法,但它也存在一些局限性。首先,远程操作系统仍需要人类操作者进行一定的练习才能实现精确操作,并且在某些方面可能感觉不直观,例如通过头部动作控制躯干运动。其次,尽管我们设想该系统能够实现大规模的跨实体学习,但在这项工作中,我们尚未将其扩展到其他机器人平台或纳入额外的机器人数据集。作为未来的工作,我们计划验证其在不同机器人类型(包括机械臂和人形机器人)中的可扩展性和鲁棒性。

结论

本文介绍了用于灵活数据收集和跨实体学习的统一框架 Human2LocoMan,其基于开源 LocoMan 平台实现多功能四足操作技能,通过远程操作和人类数据收集系统弥合人类与机器人实体间动作空间,实现大规模高质量数据集的高效获取,并提出模块化跨实体 Transformer 架构以支持从人类演示到机器人策略的正向迁移。实验在六个挑战性家庭任务中表明,该框架性能强大、训练高效,对分布外场景具鲁棒泛化能力,优于主流模仿学习基线,凸显了跨实体学习和模块化策略设计在推进可扩展多功能四足操作上的有效性。

参考

[1] Human2LocoMan: Learning Versatile Quadrupedal Manipulation with Human Pretraining

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值