RSS 2025|误差降低41%!ETH 开源「感知式动力学模型」,实现崎岖地形零样本导航

在复杂崎岖的环境里让机器人安全前行,并不是件容易的事。传统导航方法往往依赖简化的动力学假设,必须手工精心调节代价函数,才能在各种障碍间小心翼翼地摸索出一条路来,这既费时又很难泛化。为此,这项来自 ETH Zurich 和 Legged Robotics 团队的工作提出了一种新方法:让机器人自己学会预判

他们开发了一个感知式前向动力学模型(FDM),可以结合周围几何信息和机器人自身传感历史,直接预测未来的状态和潜在失败概率。这让机器人在规划时不再依赖繁琐的手动调优,而是用学习到的模型在零样本情况下快速进行路径积分规划(MPPI),自动规避高风险操作。

在四足机器人 ANYmal 上,这个系统将位置估计的准确度提高了 41%,导航成功率提升 27%,并且在现实世界中同样表现出色。更重要的是,这一成果已完整开源,为机器人如何在未知环境中安全前行提供了一条全新的道路。

原文链接:RSS 2025|误差降低41%!ETH 开源「感知式动力学模型」,实现崎岖地形零样本导航

图1|作者提出的模型通过结合真实世界与仿真数据进行训练,在输入一系列速度动作后,可预测机器人的未来状态。模型输入包括以高度扫描形式表示的周围几何信息、过去的状态以及本体传感测量。一个基于采样的规划器利用简单的奖励函数评估生成的路径,并以滚动时间域(receding horizon)方式选择最优下一步动作。(A) 中可视化了十条示例路径,并叠加在环境图像上,旁边展示了高度地图以及下采样后的高度扫描(蓝色点)。路径颜色表示奖励值,最接近目标且无碰撞的路径具有最高奖励。(B–E) 展示了其他规划场景,图中显示了采样得到的多条路径及所选的最终轨迹(绿色),证明该方法能够在崎岖地形中实现安全规划

论文出处:RSS2025

论文标题:Learned Perceptive Forward Dynamics Model for Safe andPlatform-aware Robotic Navigation

论文作者:Pascal Roth, Jonas Frey, Cesar Cadena, Marco Hutter

论文地址:https://www.roboticsproceedings.org/rss21/p001.pdf

理解机器人系统的动力学对于确保其安全和高效控制至关重要,尤其是在诸如接触丰富场景下的运动规划等复杂任务中。移动机器人在环境中导航时的动力学不仅依赖于其自身结构,还取决于与地形的相互作用,这导致了高度非线性的行为,使得在不同场景间泛化变得尤为困难。

通常,前向动力学模型(FDM)被用来预测此类复杂动力学,用于估计在施加给定命令后的机器人未来状态。这些模型能够捕捉机器人与地形的相互作用,并隐式提供可通行性评估。然而,动力学模型在设计时需在状态表示、精度、预测时间跨度以及建模频率之间仔细权衡。尽管已有大量针对公路和越野车辆的动力学研究,但四足机器人由于其更为复杂的系统动力学及难以建模的环境交互,仍面临独特的挑战。此外,四足机器人的步态策略通常依赖深度神经网络,这进一步增加了行为建模的复杂性。

基于物理的一阶原理推导并通过系统辨识标定的传统物理模型,往往难以精确捕捉这种复杂的系统动力学,尤其在接触丰富的场景中更容易出现非线性问题,同时对感知精度也提出更高要求。这类方法计算开销大,对初始条件敏感,因此难以提供准确的预测,往往会导致偏差累计和持久的建模误差。

为克服这些局限,数据驱动方法逐渐成为逼近复杂动力学的有前景替代方案。然而,训练神经网络以表达机器人动力学通常需要大量状态-动作轨迹数据,这也促使研究者借助合成数据来缓解真实世界数据采集的高昂代价。此外,仿真还允许在不损坏真实机器人的前提下,进行诸如跌落或碰撞等高风险操作。虽然仿真器在刚体物理场景下提供了准确的建模,但计算开销大,且难以涵盖其适用域之外的情况。因此,有必要将动力学“蒸馏”到学习模型中,以在计算资源受限的移动机器人上获得足够快的推理速度。同时,真实世界数据对于处理未建模效应、弥合仿真与现实的差距仍是不可或缺的。

为弥补基于物理的模型与学习模型之间的鸿沟,将运动学规律或能量守恒等物理约束整合到学习流程中的方法表现出了较强的效果。然而,这些方法通常仅适用于较短的控制时间尺度,与本文所聚焦的长时间规划步长相比存在局限。此前首次在四足机器人上应用学习型前向动力学模型的工作,结合了采样轨迹技术,实现了在狭窄复杂环境中的反应式导航。但在如何将三维感知纳入以适应崎岖环境、以及如何从仿真有效迁移到真实系统方面,仍存在开放性挑战。

本文提出了一种感知驱动的 n 步前向动力学模型(FDM)框架。所提出的方法结合了使用最先进仿真器生成的合成数据预训练,以及在真实数据上的微调。这种混合策略既利用了仿真的安全性和灵活性,也捕捉了真实系统的完整动力学。该 FDM 专为四足及轮足系统设计,是首次在崎岖地形环境中实现此类模型的应用。本文的框架扩展了基于采样的规划器方法的能力,通过减少繁琐的参数调优需求,提供了一种灵活的非任务特定规划方案,使其能够在无需额外学习步骤的情况下实现对新环境的零样本适应。

本文的主要贡献如下:

 首次在崎岖地形上使用仿真训练的前向动力学模型,并成功部署于四足机器人,展现了可靠的 sim-to-real 迁移能力及在崎岖地形上的稳健表现。

 提出了一种混合训练策略,利用真实数据有效捕捉超越刚体仿真的完整系统动力学,同时借助合成数据预训练,以安全地涵盖高风险场景。

 为基于 MPPI 的规划设计了一种简化的代价函数形式,将平台特定的 FDM 集成进来,实现安全可靠的轨迹生成,并通过调整代价项即可支持零样本适应,无需额外训练。

图2|全文方法概览:数据既来自并行仿真环境,也来自真实实验。机器人本体和外部传感测量值以及速度动作被保存到回放缓冲区中,训练数据即从该缓冲区采样获得。关于机器人当前及过去状态的信息被编码后输入到循环单元中,生成一个依赖于所施加动作的未来状态潜在表示。随后,采用不同的输出头分别预测未来的 SE2 位姿以及失败概率

模型架构

首先我们来了解一下模型架构,输入包括过去 n 步的状态与本体传感器读数以及当前的高度扫描。所有本体观测在输入网络前会进行归一化,并在合成样本上添加噪声增强。高度扫描还会注入缺失块与遮挡,以更真实地模拟实际传感器局限性。

模型首先用 GRU 编码器处理历史状态和本体信息,用卷积层提取高度扫描特征,再将两者融合后初始化前向预测 GRU。这个预测 GRU 接收动作序列编码,逐步预测未来状态的潜在表示,并由两条分支并行输出未来状态:一条预测速度校正量(与期望速度之差),另一条预测失败风险。同时作者在训练的过程中引入了FDM损失函数FDM 的损失包含位置预测误差、二分类的风险预测误差以及在高风险情况下用于保持后续位置不变的停滞损失。这些损失项被加权组合,用于优化网络参数

接下来是本文的动力学模型部分,如果各位读者对于基本的动力学模型比较熟悉了,可以跳过这部分的内容,直接第二部分学习问题定义开始读起。

动力学建模

基础机器人动力学模型

作者采用部分可观测马尔可夫决策过程(POMDP)框架来建模系统动力学。这里,状态集表示机器人及其环境可能的配置;动作集是智能体可选择的动作;状态转移概率描述了在执行给定动作后,从一个状态转移到下一个状态的可能性;观测集提供了对真实状态的部分、噪声感知,观测概率则刻画了在给定状态下获取特定观测的可能性。

机器人依据前向动力学模型从当前状态和动作推演出下一个状态。然而,由于真实状态通常无法直接观测,作者提出学习一个近似的动力学模型,用以预测状态的子集。该模型以当前观测和动作为输入,输出对下一个状态的估计。为了避免直接滚动推理(即从状态一步步生成观测),作者将这一单步模型扩展为 n 步预测模型,用于长时间范围内的状态预测。这样,模型能够在给定当前观测和未来动作序列的情况下,直接预测接下来一系列未来状态。这种做法显著降低了长预测范围内的计算复杂度

动力学模型学习问题定义

为了实现准确的状态预测,作者使用神经网络构建了该 n 步预测模型。模型的状态被定义为机器人在 SE2 空间中的位姿以及一个失败风险指标,后者用 0 或 1 表示当前轨迹是否存在灾难性失败。输入的动作是机器人在 x、y 以及偏航方向的线速度和角速度。

观测输入包括本体感知(即机器人的过去状态和多通道传感器历史)以及当前的高度扫描,用于表达地形的可通行性和检测障碍。这样,动力学模型可以结合地形粗糙度、摩擦等环境因素,推理未来位姿与失败风险。

与直接预测未来位置不同,作者采用残差形式,让网络预测速度增量,再通过常速模型积分得到最终位置序列。损失函数则由位置预测误差和风险预测误差组成,训练目标是同时最小化位置与风险的预测偏差

规划

规划的目标是在未知环境中为机器人找到一条安全、无碰撞、效率高的动作序列,使其从当前位置到达目标位置。这项导航任务需要在线执行,并且仅依赖于机载传感和计算资源。

3本文的规划方法概览。首先,通过在初始解上添加高斯噪声生成一组动作轨迹。随后,利用所提出的 FDM 预测各条动作序列的未来状态及其风险,并根据奖励函数对这些序列进行评估。经过 k 次迭代后,以此前获得最高奖励的动作序列为起点,最终选择奖励值最大的序列并执行

在该方法中,最优动作序列的确定依赖于所构建的感知式前向动力学模型输出的未来状态,包括预测位置及其失败风险。奖励函数由位置误差项和风险惩罚项组成,能够在不需要手动构建代价地图或其他可通行性指标的前提下,自动驱动机器人避开高风险区域并朝向目标

在规划中,利用 MPPI 的零样本能力,可以无需额外训练,仅通过调整奖励中的位置项与风险项的权重,适应新环境。位置奖励鼓励机器人靠近目标,并在接近时施加额外拉力;风险项惩罚预测为高失败概率的路径,并通过在相邻轨迹中累积风险提高对预测错误的鲁棒性

作者在仿真和真实世界环境中评估了所提出的感知式前向动力学模型(FDM)的有效性和感知能力。

仿真环境分为三类场景

 2D 场景:含墙壁、柱子、迷宫等障碍,可被 2D 传感器检测。

 3D 场景:包含楼梯、坡道等更复杂的立体障碍,无法仅通过平面 2D 传感器区分,需要至少 2.5D 表示。

 2D-3D 混合场景:结合上述两类障碍。

机器人平台

 ANYmal(四足)、Barry(另一种腿式平台)、ANYmal-On-Wheels(四足轮式)。

 仿真基于 NVIDIA IsaacLab 框架,并在地形细节和数据增强上做了额外设计。

真实环境数据

 由搭载传感器的 ANYmal 收集,同时也用于后续真实部署测试。

计算资源:FDM 在 NVIDIA Jetson Orin AGX 上运行,规划器以 7Hz 的频率运行,每次推理 2048 条轨迹,单次模型推理耗时约 40.6ms

首先作者验证的是FDM的感知能力,也是为了验证模型是否真正学会了机器人与地形的相互作用,作者在不同地形上用相同的动作序列执行预测,并在下图中可视化结果。

图4|FDM感知能力实验结果图示

通过该图,我们可以得到以下结论:

 即使在平坦地形上,恒定速度假设也无法准确复现机器人的实际路径,而本文方法几乎与真实行走路径重合

 在包含楼梯、坡道等复杂环境中,FDM 能准确检测碰撞,并合理预测在不同障碍上的运动

 同样的性能也在真实环境中观察到,表明模型具备良好的 sim-to-real 迁移能力

同时作者也进行了充分的对比实验,在大规模上基线上对比了本文方法(下图所示)

评估在 5 万个样本上进行,覆盖之前介绍的所有环境。

下图中上方的折线图展示了总体位置误差:本文方法在最终预测步上的平均位置误差比感知基线降低 41.28%,比恒定速度降低 70.57%。

下方的四副小图中,作者展示了不同单独环境下的位置误差分布:

 大多数预测都在较小的误差范围内,尽管在少数情况下(如失败预测错误)会出现较大偏差。

 特别是在 3D 场景中,2D LiDAR 无法提供足够信息,基线泛化失败,而本文模型依然保持准确。

在碰撞估计方面FDM 在所有环境下准确率至少为 89%。

5对比实验结果;上图表示总体位置误差,下图表示各个位置的误差分布

随后作者在真实环境中部署了本文的方法,并进行了一系列的测试(下图所示),从结果来看,在真实部署中,作者提出的方法展示了长距离路径规划,即使存在传感器噪声、地形不一致和状态估计误差,FDM 依然能合理理解环境可通行性,仅依赖简单的两个代价项实现安全规划平均位置误差可以由微调进一步降低:林地减少 34.38%,雪地减少 30.55%,铺装地面减少 30.30%

6机器人实机部署实验结果

最后是本文的消融实验,作者将 MPPI 规划器分别与三种后端模型结合:本文提出的 FDM、Kim 等人的方法、以及基于高度扫描可通行性估计的传统方法。

下图中显示了在 2D 和 3D 场景下的成功率、平均路径长度(MPL)和平均路径时间(MPT),显而易见,本文方法在所有场景下成功率最高。

7消融实验结果

本文提出了一种面向复杂局部规划任务的感知式前向动力学模型(FDM)框架。该模型通过混合仿真数据与真实世界数据进行训练,能够捕捉四足机器人复杂的系统动力学,并支持在无需额外学习步骤的情况下,对规划目标实现零样本自适应调整。

与基线方法相比,所提出的网络平均将位置误差降低了 41.28%,并以至少 89.20% 的准确率完成失败风险预测。此外,当将该 FDM 集成到采用简化奖励函数的 MPPI 规划器中后,在复杂环境下的平均到达目标成功率达到了 81%

在未来工作中,作者计划探索用于动作执行的自适应时间步,并扩展所适用的环境范围。同时,也打算引入基于 RGB 的输入以获得更丰富的环境表征。此外,研究还将尝试将该 FDM 集成到集成学习框架中,用于评估不确定性,并将其作为额外的规划参数。更进一步,这项工作可为提升物理仿真器在复杂环境下的精确度提供有益的参考与基础。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值