真实场景成功率超85%!复旦大学提出端到端的零样本目标导航ELA-ZSON

导读

在复杂的家庭或办公环境中,让机器人听懂“去客厅的沙发那里”并准确导航过去,是一项看似简单却极具挑战性的任务。传统方法往往依赖大量训练、复杂的奖励设计,且容易在多房间、多障碍的环境中迷路或失败。为此,来自复旦大学的研究团队提出了 ELA-ZSON,一种不依赖训练、具备全局理解与局部应变能力的“即插即用”导航系统。

©️【深蓝AI】编译

论文题目:ELA-ZSON: Efficient Layout-Aware Zero-Shot Object Navigation Agent with Hierarchical Planning

论文作者:Jiawei Hou, Yuting Xiao, Xiangyang Xue, Taiping Zeng

论文地址:https://www.arxiv.org/pdf/2505.06131

ELA-ZSON 的亮点在于它模拟了人类“先大致规划、再边走边看”的思维方式:先用一张“室内布局图”做全局路径规划,再根据机器人当前的视野和障碍物,灵活调整每一步的走法。同时,它还配备了一个由大语言模型驱动的“机器人大脑”,能自动决定何时探索、何时建图、何时重规划,整个过程无需人工干预,也不用预训练,在末尾部分展示了该方法的实际部署情况,在不同场景中都取得了非常SOTA表现。

在真实测试中,这套系统成功率高达 85%,即使中途新增障碍,也能快速绕行、重新规划,表现远超以往方法。ELA-ZSON 展示了一种高效、稳健、无需训练的目标导航新范式,为下一代通用服务机器人迈向实际落地打开了新的想象空间。

1.  引入

大规模基础模型(Large Foundation Models, LFMs)和机器人技术的发展,使得家庭助手机器人的实际部署越来越接近现实。目标导航是此类机器人的一项关键能力,即机器人需要根据用户的指令定位并导航至指定目标物体的位置。近年来,研究人员在将视觉-语言模型(Vision-Language Models, VLMs)整合进导航任务中取得了重要进展,VLMs 能够将用户的自然语言输入与机器人在环境中的观测对齐,从而实现导航任务。

现有的研究主要沿两条路线展开:一是“过程驱动式”(process-prompted)的导航方法,强调逐步解析用户指令并依序执行导航;二是“目标导向式”(goal-oriented)的导航方法,直接根据用户描述或目标图片进行目标定位与导航。

尽管 Vision-Language Navigation(VLN)方面已有显著进展,许多研究仍基于理想假设(如已知拓扑结构、全景观测、完美定位等),这些假设在现实环境中往往难以满足。为弥合这一差距,VLN-CE 任务取消了这些不现实前提,使得智能体必须在连续的环境中从原始观测中做出控制决策,从而更贴近实际应用。

另一方面,目标导向的导航方式提供了更简洁直观的交互方式。用户只需发出如“去客厅的沙发那里”这样的简单指令或上传目标图像,机器人便能执行任务。ZSON 提出了一种无需在特定场景中训练的目标识别与导航机制,引发了大量研究尝试通过提升图像检索与语义理解能力来实现更高效的导航。

尽管取得了一定成果,在开放场景中进行导航仍面临诸多挑战,主要包括:

1.  在目标不可见的情况下,如何基于场景记忆规划出高效路径,避免无意义绕路;

2.  如何应对局部场景的变化,例如在原本无障碍区域中出现新的障碍;

3.  如何在无需人工干预、复杂奖励或高昂训练成本的前提下,完成有效的导航任务。

在此背景下,一些研究尝试将大模型用于机器人导航规划任务,例如通过语言引导的前沿探索、引入概率常识约束、或基于图文相似度评分进行语义导航。还有研究构建了开放词汇的3D拓扑图,用于全局路径规划。然而,这些方法在面对局部变化时往往不够灵活,无法及时调整路径。

因此,该研究提出了一种层次化的导航框架——ELA-ZSON,旨在整合轻量的全局拓扑布局与灵活的局部路径调整机制,实现高效而稳健的零样本目标导航。

图1ELA-ZSON功能示意©️【深蓝AI】编译

2. 具体方法与实现

本文提出了一种用于未知室内环境的层次化机器人导航框架,支持基于自然语言指令、图像或三维位置坐标进行目标导航,具体的框架如图2所示

该框架的核心在于:利用收集到的 RGB-D 图像序列构建双层地图,包括全局拓扑图和局部稠密表示。场景表示包括两个部分:

● 一个神经隐式函数,用于将三维空间位置映射到视觉-语言嵌入空间,实现语义查询;

● 一个拓扑图,节点表示房间区域或房间之间的连接通道(如门),边表示可通行路径。

在导航开始前,系统会将用户提供的语言或图像指令编码为嵌入向量。然后,框架会在场景表示中进行语义查询,寻找与目标最匹配的位置作为导航终点。

随后,使用构建的拓扑图从机器人当前位置到目标点规划一条全局路径,路径由稀疏的结构性导航点组成。每一段全局路径再在机器人本体坐标系下细化为密集的局部路径点,以应对动态变化的环境。

整个过程由一个由大语言模型(LLM)驱动的智能体统一调度完成。该智能体无需人为交互或训练,只需输入 RGB-D 图像即可输出可用于导航的三维路径点序列,兼容通用机器人平台。

图2|ELA-ZSON的系统整体框架©️【深蓝AI】编译

2.1 层次化场景表示

本方法借鉴了近年来将场景建模为拓扑图的思路,同时保留了对场景内容的细粒度表达。

具体而言,系统首先使用 RGB-D 图像和相机参数,将三维空间点与图文嵌入进行匹配,通过神经网络学习一个隐式函数来支持后续的语义查询。与此同时,构建出一个拓扑图,其中节点表示区域或通道,边表示区域之间的连接关系。

因此,整个场景既具有结构层次上的可规划性,也具备语义层面上的可查询性。

2.2  层次化规划

该规划模块的设计目标是实现两个目标:

1. 全局高效性:路径应避免绕行和重复区域;

2. 局部适应性:路径能应对突发环境变化(如障碍物增加)。

2.2.1 全局规划

首先,系统将用户输入的图像或文本指令统一编码为语义向量,然后在场景中采样多个三维点,并计算这些点与目标嵌入之间的相似度。相似度最高的位置即被认为是目标所在。

随后,使用拓扑图从当前机器人的位置到目标位置之间寻找一条最短路径,该路径由多个关键节点(如门口、走廊转角)组成。

图3|系统规划示意,红色的路径为全局规划,每个绿色的小点代表局部的规划©️【深蓝AI】编译

2.2.2 局部规划

每一对全局路径点之间,会进一步细化为一组局部路径点。此过程基于当前深度图和目标位置,通过一个规划网络生成一组可执行的局部导航点。

机器人在执行导航时,会逐段推进:到达当前局部段的终点后,再计算下一段的路径,实现逐步更新、动态适应。

这样的两级路径结构,既保证了全局路径的合理性,又保证了局部路径对实时环境变化的反应能力。

2.3 大语言模型智能体

系统中的智能体由一个大语言模型驱动,承担整个导航任务的逻辑决策与任务分配。

该智能体根据任务背景、用户指令、地图状态、导航轨迹、当前状态等多个信息源,综合判断当前应采取的动作。可选动作包括:环境探索、场景建图、路径规划、导航执行、重新规划等。

一旦机器人进入新环境,智能体便自动启动探索与建图过程,构建场景表示后开始任务规划,并根据导航状态实时调整策略。当出现障碍、路径失效或重复访问某区域等情况时,智能体会发起重新规划或上报错误,确保任务顺利完成。

3.实验

如图4 所示,ELA-ZSON 在 目标导航任务(Object Navigation)中显著优于现有方法:

● 成功率(SR)达到 85.6%,路径效率(SPL)达到 79.7%。

● 相比 SOTA 方法如 HOV-SG(SR 40.4%、SPL 23.6%)或 VLFM(SR 36.4%、SPL 17.5%),ELA-ZSON 提升了 40-50 个百分点的 SR,50-60 个百分点的 SPL,可以看到其性能提升非常之恐怖。

图4数值实验结果©️【深蓝AI】编译

图5真实环境室内实验结果©️【深蓝AI】编译

图5 展示了在真实室内环境中针对不同目标的导航测试结果:

● 如“chair(文本输入)”任务中,机器人实现了 100% 的成功率,路径平均长度为 16 米,用时 91 秒。

● 当引入障碍后(如“sofa”任务设置了 2~3 个障碍),ELA-ZSON 仍然通过 局部重规划机制有效完成多数任务(如文本指令成功率仍达 60%~90%)。

● 表中统计了局部与全局重规划次数,表明系统可根据实时反馈灵活应对变化。

图5|实际机器人部署实验展示©️【深蓝AI】编译

图 6 展示了在不同目标物体和障碍条件下的真实导航过程:

● 上方为成功到达目标的路径示意;

● 下方展示了引入障碍后的重新规划和路径绕行,验证了系统的 动态适应能力。

图 7 展示了另一平台(Clearpath Jackal 机器人)上的部署,表明方法具有 跨平台适应性。

7多平台机器人部署实验©️【深蓝AI】编译

总结

这篇论文提出了一种面向多房间复杂室内环境的零样本目标导航方法,核心目标是解决传统导航方法在真实部署中存在的三大难题:路径效率低、缺乏环境适应性、对训练依赖重。

作者设计了一个层次化导航框架,结合全局拓扑规划与局部动态路径调整。系统首先构建环境的拓扑结构图用于粗略导航,再结合深度图与目标位置生成可执行的局部路径。同时,框架中的导航过程完全由一个大语言模型(LLM)驱动的智能体控制,实现“指令-感知-规划-执行”的自动闭环,无需人为干预、训练或奖励设计。

论文在仿真环境(MP3D)和真实机器人平台上进行了全面验证,ELA-ZSON 在成功率和路径效率上均大幅超过现有 SOTA 方法,并能有效应对场景变化与障碍物干扰,展现出极强的鲁棒性和实用性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值