R²D²:NVIDIA研究院推进机器人移动性和全身控制的创新工作流程与AI基础模型
开发稳健的机器人面临着以下重大挑战:
- 数据稀缺性:为AI模型生成多样化的真实世界训练数据。
- 适应性:确保解决方案能够适用于各种机器人类型和环境,并能适应动态、不可预测的设置。
- 集成:有效结合移动性、操作、控制和推理能力。
我们通过在平台上验证的先进研究来解决这些挑战。我们的方法将前沿研究与工程工作流程相结合,并在我们的AI和机器人平台上进行测试,包括NVIDIA Omniverse、Cosmos、Isaac Sim和Isaac Lab。由此产生的模型、策略和数据集作为可定制的参考,供研究和开发者社区根据特定机器人需求进行调整。我们期待分享我们的发现,并共同构建机器人技术的未来。
在本期R²D²中,您将了解以下机器人移动性和全身控制工作流程与模型,以及它们如何解决机器人导航、移动性和控制的关键挑战:
- MobilityGen:一种基于模拟的工作流程,使用Isaac Sim快速生成大型合成运动数据集,用于构建适用于不同形态和环境的机器人模型,以及测试机器人在新环境中的导航能力,与真实世界数据收集相比,降低了成本和时间。
- COMPASS(跨形态移动策略通过残差强化学习和技能合成):一种开发跨形态移动策略的工作流程,便于使用Isaac Lab进行微调,并实现零样本从模拟到现实的部署。
- HOVER(人形机器人多功能控制器):一种工作流程和统一的全身控制通用策略,适用于Isaac Lab中人形机器人的多种控制模式。
- ReMEmbR(用于具身机器人的检索增强记忆):一种使机器人能够推理并采取移动行动的工作流程,利用LLM、VLM和RAG(检索增强生成)技术。
NVIDIA机器人移动性工作流程和AI模型
移动机器人,如人形机器人、四足机器人和自主移动机器人(AMR),越来越多地应用于各种环境中,这需要强大的导航系统,能够在已知和未知环境中安全运行,同时避开障碍物并减少停机时间。当前的导航软件在适应性方面存在困难,因为不同类型机器人(例如AMR与人形机器人)之间的算法差异显著,并且需要针对环境变化进行大量微调,这增加了工程复杂性,并阻碍了可扩展性。
视频1. NVIDIA机器人移动性工作流程和AI模型
NVIDIA研究院通过开发AI驱动的端到端基础模型、高效的数据生成管道和训练工作流程来解决这些挑战,这些工作流程支持零样本部署,使机器人能够在不依赖昂贵传感器的情况下导航杂乱空间。
图1. 移动性工作流程包括三个主要步骤:数据生成、在生成数据上训练和微调模型,以及在零样本部署到真实机器人之前测试模型。
MobilityGen用于数据生成
MobilityGen是一种工作流程,使用NVIDIA Isaac Sim轻松为移动机器人生成合成运动数据,包括人形机器人、四足机器人和轮式机器人。您可以使用这些数据来训练和测试机器人移动模型以及感知算法——解决了训练机器人数据稀缺的问题。
MobilityGen通过使用户能够执行以下操作来帮助增加数据集的多样性:
- 添加动态对象
- 添加机器人动作数据
- 结合人类演示
- 增强数据(例如照明条件)
MobilityGen提供以占用地图、姿态信息、速度信息、RGB、深度和分割图像以及可定制的动作和渲染数据形式的真实数据。它支持的数据收集方法包括键盘或游戏手柄远程操作,以及自动随机动作或可定制的路径规划。
图2. 机器人移动性的合成数据生成包括四个主要步骤:在模拟中构建或导入环境,导入机器人模型,在模拟中移动机器人并记录轨迹,最后渲染数据用于训练和测试。
通过解决数据稀缺问题,MobilityGen增强了集成机器人技术栈的感知和移动基础。了解更多关于MobilityGen以及如何使用远程操作为Unitree H1人形机器人生成运动和导航数据集的信息,请参阅这个免费的自学深度学习研究所(DLI)课程。
视频2. MobilityGen用户使用Isaac Sim进行合成数据生成
COMPASS用于跨形态移动策略
COMPASS是一种用于开发跨形态移动策略的工作流程。它提供了一个可泛化的端到端移动工作流程和模型,使多种机器人形态能够实现零样本从模拟到现实的部署。这旨在解决由于机器人学家的开发和测试周期缓慢而导致的扩展问题。
COMPASS将基于视觉的端到端模仿学习(IL)与X-Mobility、Isaac Lab中的残差强化学习(RL)和策略蒸馏方法相结合,以跨不同机器人平台进行扩展。虽然基于IL的X-Mobility策略是在使用MobilityGen生成的数据上针对特定形态预训练的,但COMPASS的通用策略可以为不同形态实现5倍更高的成功率。这使不同的机器人能够使用统一策略在复杂环境中高效导航。它还为用户提供了针对特定形态和环境微调策略的灵活性和便利性。
图3. COMPASS工作流程
工作流程的第一阶段使用基于IL的方法进行世界建模,训练环境状态和动作的移动"常识"表示。这种"常识"的例子包括世界动态理解、障碍物检测和避免、路径规划和环境意识。
第二阶段使用残差RL将第一步中的IL策略逐步细化为特定形态的专家。第三阶段使用每个专家的数据,通过策略蒸馏将它们合并为跨形态模型。通过这种方式,每个专家的专业知识都被融入到最终的蒸馏策略中,增加了跨不同平台的适应性。
COMPASS实现了零样本多机器人交互,展示了机器人如何在不同环境中运行。它还可以与运动操作控制器连接,用于与运动操作相关的任务。
视频3. 使用COMPASS策略的人形机器人
通过解决跨形态的泛化问题,COMPASS增强了集成机器人技术栈的移动基础。
HOVER用于人形机器人全身控制
到目前为止,我们已经了解了使机器人从一点移动到目标位置的移动策略。这对于稳健的运动来说还不够——我们还需要实现平衡和全身控制,以确保安全、平稳的移动。HOVER旨在为此提供参考工作流程。
传统上,人形机器人需要不同的控制模式来执行各种任务,如用于导航的速度跟踪和用于桌面操作的上半身关节跟踪。HOVER是一种在Isaac Lab中训练的工作流程,将所有这些控制模式整合到人形机器人的统一策略中。其他控制器也可以代替HOVER用于本博客中解释的其他工作流程的机器人。
通过将人形机器人的多个运动部件的复杂性整合到统一的神经全身控制器中,HOVER增强了集成机器人技术栈的控制基础。HOVER(人形机器人多功能控制器)是一个多模式策略蒸馏框架,将各种控制模式统一到单一策略中,实现它们之间的无缝过渡。使用RL训练一个预言策略来模仿人类运动数据,然后使用策略蒸馏过程将技能从预言策略转移到通用策略。
HOVER代码还包括一个可用于Unitree H1机器人的部署代码示例。它使拥有机器人访问权限的用户能够复制下图所示的运动和稳定性。
图4. HOVER策略在Isaac Lab中训练,在MuJoCo中测试,并部署到真实机器人;(左)在使用MuJoCo的模拟中测试,(右)部署到真实机器人。
图5. HOVER策略在保持平衡的同时执行手臂运动。
ReMEmbR用于机器人推理
我们到目前为止探索的工作流程解决了数据集创建、移动策略和人形机器人的全身控制。要实现具有对话智能的完全自主移动,我们需要整合机器人推理和认知。机器人如何根据用户输入记住它在环境中看到的内容并相应地行动?
ReMEmbR是一种结合LLM、VLM和RAG(检索增强生成)的工作流程,使机器人能够推理、回答问题,并在大型区域中使用长时记忆行动采取导航行动。这作为具身机器人的"记忆",帮助进行基于感知的问答和语义行动执行。
图6. ReMEmbR工作流程
ReMEmbR可以为我们在本博客中了解的其他工作流程提供输入,将它们结合起来帮助解决机器人移动性的复杂性。我们还发布了NaVQA数据集(导航视觉问答)用于评估,其中包含具有空间、时间和描述性问题的示例,以及各种输出类型。
图7. 四个工作流程的整合:MobilityGen、ReMEmbR、COMPASS和HOVER。
通过利用LLM和VLM的力量来处理推理,ReMEmbR增强了集成AI基础机器人技术栈的推理和适应性。
生态系统采用
领先的人形机器人、仓库自动化和自主系统组织正在采用NVIDIA的研究工作流程,以加速开发并在可扩展性和适应性方面取得突破。
- UCR(Under Control Robotics)集成了X-Mobility来引导其机器人Moby无缝到达目的地。这个模块化系统被证明可适应工业任务,如数据收集、材料处理和自动化高风险操作。
- Advantech与ADATA合作,以及Ubitus采用了ReMEmbR,使他们的机器人能够基于扩展观察进行推理和行动。
入门指南
准备深入了解?探索这些额外资源:
- MobilityGen:GitHub和DLI教程
- COMPASS:项目网站、论文和GitHub
- X-Mobility:项目网站、论文和GitHub
- HOVER:项目网站、论文和GitHub
- ReMEmbR和NaVQA数据集:项目网站、论文、GitHub和博客
本文是我们NVIDIA机器人研究与开发摘要(R²D²)的一部分,旨在为开发者和研究人员提供更深入的见解,让他们了解NVIDIA各研究实验室在物理AI和机器人领域的最新突破。
通过这些工作流程和模型,NVIDIA正在解决机器人开发中的关键挑战,包括数据稀缺性、适应性和集成。这些解决方案为研究和开发者社区提供了可定制的参考,以加速机器人技术的发展。