仅用一台Vision Pro就能控制机器人？MoE&闭环纠错，实现机器人长时域精准遥操作

本文链接：https://blog.youkuaiyun.com/soaring_casia/article/details/148635427

实现人形机器人对长时复杂任务的全身协调遥控操作一直是极具挑战性的难题。

要让人形机器人完成诸如「从地上捡起一个物体并将其放到远处的垃圾桶里」这类简单的任务操作，需要“教机器人”学会走路的同时还能精确地操作物体，并且在整个过程中始终知道自己在空间中的确切位置。

©️【深蓝具身智能】

▲图1 | CLONE采用基于MoE的策略远程操控类人机器人，实现长期任务执行和整体的人形机器人-环境交互。

这正是北京通用人工智能研究院、北京理工大学、北京大学等实验室团队的最新成果——CLONE，想要解决的：

如何让机器人的上半身和下半身像人类一样协调工作，而不是分别独立控制；

如何在长时间操作过程中保持机器人位置的准确性，避免累积误差导致的"漂移"问题。

CLONE系统采用"混合专家模型"（Mixture-of-Experts），每个专家擅长不同类型的动作（比如走路、蹲下、抓取等），然后有一个"总指挥"来协调这些专家，确保它们能够无缝配合完成复杂任务。同时，系统还集成了激光雷达测距技术来实时纠正位置误差，给机器人装上了一个精确的"GPS"系统。

↓项目视频

仅用一台Vision Pro就能控制机器人？MoE&闭环纠错，实现机器人长时域精准遥操作https://mp.weixin.qq.com/s/J-HriWzheCyXN1f0LUfBlA

基于上述内容，本文将从方法原理、实验验证等方面对该成果进行解读。

人形机器人遥操作技术已经取得了显著进展，特别是在运动-操作一体化（loco-manipulation）和遥操作控制方面。目前的技术主要依赖于动作捕捉系统、触觉反馈设备或虚拟现实接口来实现人类动作的复制。然而，现有方法在处理复杂全身协调动作时仍然面临三重挑战：

控制架构

现有系统通常采用分离式控制策略，将上半身和下半身的控制分开处理，这种方法虽然能够确保系统稳定性，但却牺牲了动作的协调性和自然性。就像是让一个人的左手和右手分别由两个不同的大脑控制一样，很难实现流畅的协调动作。

全局定位

与轮式机器人不同，人形机器人在行走过程中会产生复杂的非完整运动模式，足部与地面的接触变化使得可靠的状态估计变得极其困难。

数据表示

现有的大规模动作捕捉数据集主要是为动画和图形学设计的，而不是为机器人学的特定需求设计，这在动作表示上存在固有的领域差距。

一些研究采用动作捕捉系统来模仿人类动作，但这些方法通常优先考虑稳定性而非全动作空间的利用，训练数据隐含的约束限制了人形机器人执行灵巧全身动作的潜力。

更重要的是，这些方法普遍忽视了「手部姿态控制」，而手部姿态恰恰是操作任务中的关键组成部分。

另一些研究虽然尝试了混合模型方法，但在人形机器人遥操作领域的潜力仍未得到充分探索。所有现有的全身遥操作系统都采用开环方式运行，缺乏准确的全局位置反馈，这导致在长时间任务执行过程中会出现显著的累积误差。

核心技术创新：三重技术金字塔

CLONE（Closed-Loop Operational Navigation and Embodiment）通过创新的三层技术架构，成功解决了全身控制的复杂性挑战，为非专业用户控制复杂人形机器人开辟了全新的可能性。

仅仅通过头部和双手动作，就能完全控制一个人形机器人执行复杂的全身运动——从精确的物体操作到动态的移动导航，再到灵活的姿态变换。

▲图2 | CLONE的框架和结构。CLONE通过运动编辑对重定向的AMASS数据集进行整理和增强，以引入多样化的类人运动和详细的手部动作。采用MoE网络作为学生策略，从使用特权信息训练的教师策略中提取它。对于现实世界的部署，将激光雷达里程计集成到系统中，以获取实时的人形状态，实现闭环错误校正。

第一层：混合专家模型（MoE）架构——"术业有专攻"

CLONE的核心在于采用了混合专家模型（Mixture of Experts, MoE）框架，这个框架的巧妙之处在于它能够让单一策略学习多样化的运动技能，同时合成与上半身动作协调的下半身运动。

传统的单一神经网络就像是一个试图掌握所有技能的全才，但往往在处理冲突目标时力不从心（比如要求稳定行走与下蹲等动作）。

而MoE框架则像是组建了一个专家团队，每个专家专注于特定类型的动作（如行走专家、蹲下专家、抓取专家等），然后通过智能的门控机制来决定在什么时候激活哪些专家，以及如何组合它们的输出。

技术实现细节：

MoE层的输出计算采用加权组合机制：

其中每个专家的激活权重通过动态路由器确定，系统还引入了平衡损失函数来防止专家负载不均：

第二层：闭环误差修正机制——"空间感知力"

CLONE引入了闭环误差修正机制，这是对传统开环控制的重大突破。系统集成了激光雷达测距技术和Apple Vision Pro追踪系统，提供闭环全局姿态反馈，实现遥操作过程中的实时漂移修正。

这种设计的技术创新在于它解决了人形机器人领域长期存在的状态估计难题。与轮式机器人的简单里程计不同，人形机器人在行走时会产生复杂的足部-地面接触变化，传统的惯性测量单元（IMU）很容易产生累积误差。

▲图3 | 全身人形机器人从最小输入进行远程操作。使用混合现实输入仅通过头部和手部姿势实现对人形机器人的直观控制，生成包括自然移动在内的协调全身运动。通过闭环跟踪，系统在长时间操作过程中保持操作员和机器人之间的精确对应，从而实现需要持续精确度的复杂长期任务。

核心技术流程：

Step1：精确定位

通过FASTLIO2算法结合IMU和LiDAR数据，实时计算机器人全局位置和操作者位置

Step2：误差校正

学生策略利用位置差异生成减少漂移的动作；

Step3：实时反馈

系统持续监控位置误差并进行动态调整。

通过引入激光雷达测距，系统能够实时获取环境的几何信息，结合视觉追踪数据来精确估计机器人的全局位置和姿态，从而实现有效的漂移修正。

实验结果显示，在8.90米的直线路径上，系统的平均跟踪误差仅为5.1厘米，相比传统开环方法有了质的提升。

第三层：智能数据策略——"运动记忆库"

研究构建了CLONED数据集，这是一个经过系统性增强的大规模训练数据集。创新之处在于它不仅仅是对现有数据的简单扩充，而是针对机器人学需求进行了专门的设计和优化。

数据集构成的三大支柱：

（1）增强的AMASS子集

149个精心策划的序列，特征是上下半身运动的多样化配对；

（2）自定义动作序列

14个使用IMU基础的Xsens MoCap系统捕获的专业级序列；

（3）手部方向增强

通过程序生成的6D手腕目标，使用SLERP平滑技术确保连贯自然的手部运动。

研究通过增强AMASS数据集的子集，添加了采样的手部姿态信息和额外的动作捕捉数据，确保对灵巧和动态全身运动的鲁棒泛化。这种数据增强策略特别关注了运动-操作一体化任务所需的运动学配置和转换的广度，弥补了现有数据集在机器人特定需求方面的不足。

▲图4 | AMASS数据集示例（ref：AMASS: Archive of Motion Capture as Surface Shapes）

教师-学生训练范式：从理想到现实的智能桥梁

CLONE采用了创新的教师-学生训练策略，这种设计巧妙地解决了模拟到现实迁移的经典难题。

教师策略：完美的理想状态

教师策略使用完整的特权状态信息进行训练：

其中特权状态包含：

这些信息在真实世界中往往难以精确获取，但在模拟环境中可以完美访问。

学生策略：适应现实的智慧

学生策略从教师策略蒸馏学习，只使用真实环境中可获得的观测：

通过这种设计，学生策略能够在有限信息条件下复现教师策略的优秀性能，实现从理想仿真到现实部署的平滑过渡。

噪声建模：让训练更贴近现实

CLONE引入了速度依赖的随机微分方程（SDE）噪声模型，这是对传统域随机化技术的重要改进：

为了全面验证CLONE系统的技术性能和实际应用价值，研究团队采用了四个层次的综合评估策略：

定量的动作跟踪精度基准测试、多样化姿态配置下的鲁棒性评估、关键架构决策的消融研究，以及在Unitree G1人形机器人上的真实世界部署验证。

这种多层次的验证方法不仅确保了技术方案的可靠性，更证明了其在实际应用中的可行性。

仿真环境性能验证

动作跟踪精度基准测试

▲表1 | 对CLONED数据集的运动跟踪评估。CLONE†使用MLP作为学生策略，CLONE∗在OmniH2O数据上训练。

在Isaac Gym仿真环境中，研究团队使用CLONED数据集对CLONE系统进行了全面的动作跟踪能力评估。如表1所示，评估采用了五个关键指标：

实验结果显示，CLONE系统在所有评估指标上都实现了100%的成功率，并在动作精度方面显著优于对比基线。

特别值得注意的是，CLONE在手部方向跟踪误差方面达到了3.61的优异表现，相比CLONE†的4.73和CLONE*的4.61都有明显改进。

多样化姿态跟踪验证

为了评估CLONE系统在不同姿态下的鲁棒性，研究团队设计了从1.2米（站立）到0.6米（深蹲）的头部高度跟踪测试。如图5所示，通过系统性编辑CLONED数据集序列，创建了前所未见的挑战性姿态。

▲图5 | CLONE（蓝色实线）、CLONE *（绿色虚线）和CLONE †（红色虚线）之间的动作跟踪性能比较。数值越低表示所有误差指标的性能越好。

实验结果揭示了一个有趣的性能权衡模式：

虽然CLONE在绝对位置精度(MPKPE)方面略逊于基线方法，但在局部指标（R-MPKPE、速度误差和手部方向）上始终表现出色。

这种模式表明CLONE优先考虑参考姿态的忠实再现，特别是在具有挑战性的姿势下，有时会以全局定位为代价。值得注意的是，所有方法在较低高度时都显示出增加的跟踪误差，证实了在蹲姿下遥操作机器人的挑战性。

消融研究：架构优化的科学验证

研究团队通过系统性消融实验深入分析了关键设计选择的影响，特别是历史长度和MoE参数的作用。

▲表2 | 关于历史长度和架构组件的消融研究

历史长度分析

25个时间步的历史配置在大多数评估指标上都能产生最优性能。较短的历史长度（5帧）和过长的历史（50帧）都会导致性能下降，验证了适中历史长度的重要性。

架构组件分析

证实了使用3个MoE层、每层4个专家的配置能够实现最佳性能平衡。实验观察到，较短的历史长度和增加的专家数量可能产生略低的R-MPKPE值，但会带来更大的全局跟踪误差，表明局部和全局运动保真度之间存在权衡。

专家激活模式分析

为了更好地理解混合专家架构内部的专业化机制，研究团队可视化了九种不同运动类型的专家激活权重模式，如图6所示。

▲图6 | 每个"专家"激活情况状态比例

分析结果揭示了清晰的专业化模式，其中需要相似技能的动作会激活特定的专家。

在第一层中，专家1和2主要在站立动作期间被激活，而专家3和4在蹲姿动作期间显示出更强的激活。

特别值得注意的是，在跳跃和打击等动态动作期间，第一层的所有四个专家都会被激活，表明复杂动作需要协作处理。类似的专业化模式也出现在后续层中，尽管在不同运动类别间的差异有所减少。

真实世界验证：理论到实践的关键跨越

▲图7 | Unitree G1上使用CLONE进行运动跟踪的定性结果。我们的方法能够准确跟踪各种全身运动，包括挥动（a）、蹲下（b、d）和跳跃（c）。

全身动作跟踪能力验证

在Unitree G1人形机器人上的真实世界测试中，CLONE系统成功实现了多样化全身技能的实时遥操作。如图7所示，机器人能够准确跟踪复杂动作，包括：

手臂挥动动作：展示了上半身精细控制能力。

深蹲动作：验证了复杂姿态转换的稳定性。

从蹲姿站起：证明全身协调控制的有效性。

动态跳跃：实现需要精确平衡控制和力量应用的高难度动作。

据研究团队表示，这代表了实时人形机器人遥操作全身动作保真度的显著进步，特别是像跳跃这样需要精确平衡控制和力量应用的动态技能。

全局位置跟踪精度验证

为了定量评估系统在长距离操作中维持精确全局定位的能力，研究团队设计了受控的路径跟随实验。实验设置了操作者和机器人的固定初始位置，操作者沿着8.90米的直线路径行走至预定目标位置。

量化结果

在十次重复实验中，系统实现了平均仅5.1厘米的跟踪误差，最大误差为12.0厘米。这种高水平的位置精度确认了CLONE闭环误差校正机制在长时间遥操作会话中有效补偿漂移和累积误差的能力。

长距离混合导航验证

为了进一步验证系统在更复杂场景中的性能，研究团队进行了包含多种运动类型的扩展遥操作会话。如图8所示，记录了一个连续的遥操作序列，操作者穿越了超过15米的复杂路径，包含了多样化的运动模式：

▲图8 | 长时域遥操作的质量结果。人形机器人准确跟踪人类在15米范围内的局部姿态和全局平移，并保持与操作者的距离。

前进行走：基础移动能力验证

转向动作：方向控制精度测试

侧步移动：横向运动协调性验证

返回原位：长期漂移补偿效果检验

在整个扩展序列中，机器人始终以高精度跟踪操作者的运动，并以最小漂移返回起始位置。这一演示突出了CLONE在涉及移动和全身运动控制的扩展遥操作会话中的鲁棒性——这种能力对于人形机器人的实际应用至关重要。

长距离一致性定量分析

如图9所示的扩展真实世界实验结果表明，CLONE模型在8.90米范围内保持了鲁棒的平均和最大跟踪误差。

▲图9 | 真实世界跟踪精度

具体而言：

平均跟踪误差：约5.0厘米

最大跟踪误差：约12.0厘米

相对误差率：最大跟踪误差保持在总跟踪距离的2%以下

值得注意的是，尽管平均和最大跟踪误差随着跟踪距离的增长而增加，但这种增加主要归因于长距离和挑战性环境中里程计估计误差的累积，这在工程实践中是可以接受的性能表现。

性能对比分析

通过与两个消融基线CLONE†和CLONE*的对比，实验结果充分验证了系统设计的有效性：

CLONE† vs CLONE：采用MLP作为学生策略的CLONE†在多个指标上都逊于采用MoE架构的CLONE，证明了混合专家模型的优越性。

CLONE vs CLONE：在OmniH2O数据上训练的CLONE相比在CLONED数据集上训练的CLONE表现较差，验证了定制化数据策略的重要性。

这些对比结果表明，MoE架构和CLONED数据集都对准确的参考动作跟踪做出了重要贡献，两者的结合是实现优异性能的关键因素。

小结

从仿真环境中100%的任务成功率，到真实世界中5.1厘米的高精度位置跟踪，再到超过15米复杂路径的稳定导航，CLONE实现了业界首次在实时人形机器人遥操作中成功完成跳跃等高难度动态动作。

CLONE系统通过创新的闭环MoE架构，成功解决了长距离遥操作中累积跟踪误差的核心难题。系统采用经过动作编辑和动捕数据精炼的增强数据集进行训练，集成LiDAR测距技术增强位置感知能力，实现了逐步误差校正机制。

尽管CLONE展现了显著的技术能力，但仍存在需要解决的局限问题：

控制精度优化需求

当前的最小输入配置（仅三个跟踪点）在某些场景下固有地约束了系统稳定性。虽然对抗性奖励机制有助于稳定下半身，但精细稳定性控制仍具挑战性。未来研究方向应探索额外的传感模态或预测算法，在保持界面简洁性的同时增强稳定性。

动态运动能力提升空间

系统在执行高度动态运动（如跳跃或单腿跳跃）时表现出性能下降，这源于训练数据分布限制和此类动作期间平衡控制的固有难度。技术改进路径包括：扩展参考运动数据集以包含更多样化的动态序列；开发针对快速转换期间平衡维持的专门奖励函数；以及考虑将基于物理的约束纳入策略以更好地建模动量动力学。

总而言之，CLONE建立了一个可扩展的技术框架，通过实现直观的全身控制和精确的长距离导航，为危险环境作业、医疗辅助、服务机器人等领域的应用奠定了坚实基础。为未来更加智能化、自主化的人形机器人系统发展提供了重要的技术积累和应用示范。

深蓝学院《与优秀的人同行》专栏，【第六场专访】来啦👏👏

本次访谈，我们邀请的嘉宾是「新加坡国立大学助理教授」——石凡老师！

👉【新加坡国立大学电气与计算机工程学院HcRL实验室助理教授兼负责人】

👉【拥有中、日、瑞士、新加坡四国学习/工作背景】

📌这次，我们希望和大家一起了解这位拥有跨文化背景学者的成长学习之旅，探讨机器人行业的未来发展……

——————————

🌈欢迎加入我们，6月19日“与优秀的人（石凡老师）同行”↓↓↓

独家专访｜机器人领域青年学者：新加坡国立大学助理教授石凡2025年，机器人到底走到了哪一步？https://mp.weixin.qq.com/s/GAjCAGLzpWqn1OFS9Gq50Q

仅用一台Vision Pro就能控制机器人？MoE&闭环纠错，实现机器人长时域精准遥操作

核心技术创新：三重技术金字塔

第一层：混合专家模型（MoE）架构——"术业有专攻"

第二层：闭环误差修正机制——"空间感知力"

第三层：智能数据策略——"运动记忆库"

教师-学生训练范式：从理想到现实的智能桥梁

教师策略：完美的理想状态

学生策略：适应现实的智慧

噪声建模：让训练更贴近现实

仿真环境性能验证

动作跟踪精度基准测试

多样化姿态跟踪验证

消融研究：架构优化的科学验证

真实世界验证：理论到实践的关键跨越

全身动作跟踪能力验证

全局位置跟踪精度验证

量化结果

长距离混合导航验证

长距离一致性定量分析

性能对比分析

小结

控制精度优化需求

动态运动能力提升空间