你的VLM竟是潜在的世界模型？颠覆传统！WMNav突破室内导航瓶颈

最新推荐文章于 2025-04-07 14:03:34 发布

原创最新推荐文章于 2025-04-07 14:03:34 发布

· 939 阅读

17 ·

版权

文章标签：

#人工智能 #语言模型 #自然语言处理 #prompt #重构

图1.基于视觉语言模型的世界模型导航

作者：Dujun Nie, Xianda Guo, Yiqun Duan, Ruijun Zhang, Long Chen
单位：中科院自动化所，武汉大学，悉尼科技大学，西安交通大学，中科慧拓
论文标题：WMNav: Integrating Visual-Language Models into World Models for Object Goal Navigation
论文地址：https://arxiv.org/abs/2503.02247
项目地址：https://b0b8k1ng.github.io/WMNav/

主要贡献

论文提出了WMNav，一种基于视觉语言模型 (Vision-Language Model) 的新型世界模型导航方法，旨在解决复杂室内环境中的Object Goal Navigation任务。该模型通过预测世界未来状态来减少机器人与环境可能的高风险和高成本交互行为。
设计了一种新的记忆策略，用于保存预测的环境状态，该策略采用在线Curiosity Value Map，定量存储世界模型所预测的不同场景下目标存在的可能性大小。
提出了一种具有反馈的子任务分解方法以及两阶段动作提议策略，增强视觉语言模型推理结果的可靠性，提高探索效率。
我们在Zero-shot Object Goal Navigation任务中取得了最先进的成果，在HM3D和MP3D数据集上的性能超过了已有的基准方法 (+3.2% SR and +3.2% SPL on HM3D, +13.5% SR and +1.1% SPL on MP3D)。

零样本目标导航的困境

在家用机器人的应用中，要实现高效导航，零样本目标导航（ZSON）至关重要。它要求机器人在从未见过的环境中，找到特定类别的目标物体。这一任务困难重重，一方面，机器人需要运用广泛的语义知识来指导行动，同时还要精准识别从未见过的目标物体；另一方面，现有的导航方法存在诸多局限：Network-based方法通常使用强化学习或模仿学习，这需要大量的高质量室内机器人数据，计算资源消耗大，成本高昂；Map-based方法需要构建精细的语义地图来帮助理解场景信息，地图构建复杂且耗时，路径规划过度依赖精确地图，探索效率低下。最重要的是，大多数现有方法都需要与环境进行大量实际交互才能获得相对准确的场景理解，没有对环境未来状态和潜在行动结果的预测，在未知场景中不能进行预期规划和推理，导致冗余移动、重复探索等问题。

方法

图2.WMNav框架

1）任务定义

传统的Object Goal Navigation任务要求智能体探索未知的室内环境，并导航至给定类别（例如床、沙发、马桶）中的任意实例。智能体从指定的初始位置开始。在每个时刻，智能体获取周围环境的RGB-D观测值及其实时姿态。然后，智能体选择动作以寻找目标。如果智能体在距离目标的预定义距离阈值内停止，则任务视为成功。尽管大多数先前的工作使用离散动作空间，例如 {Stop、MoveForward、TrunLeft、TrunRight、LookUp、LookDown}，但我们采用极坐标、来表示动作，其中表示动作的方向，表示动作移动的距离。

2）概述

全景理解对于形成全面的环境感知至关重要。为此，智能体进行一系列旋转，捕获六张不同视角的RGB-D图像，将其拼接为全景图像。在我们的方法中，世界模型由PredictVLM和Memory模块组成。世界模型并不接收来自环境的任何实际奖励信号，这意味着它仅用于预测和简化环境的未来状态。PredictVLM首先定量预测目标在每个方向存在的可能性，并将得分从全景图像投影到鸟瞰图。再将该图与上一时刻构建的Curiosity Value Map合并，存储在Memory中。接着，将得分逆投影回全景图像上。然后，选择全景图像中得分最高的方向输入到Navigation Policy模块。Navigation Policy模块能够获取来自环境的奖励信息。在策略模块中，对于PlanVLM和ReasonVLM，利用Cost（上一步的Subtask和Goal flag）来配置它们的Prompt，从而优化整个策略模块的动作输出，而无需对视觉语言模型进行任何微调。WMNav的总体框架如图2所示。

2）世界模型

基于视觉语言模型的状态预测：世界模型的核心能力在于估计感知未提供的世界状态，并预测可能的未来状态变化。我们在世界模型中采用视觉语言模型 (VLM) 作为预测器。为了引导VLM对室内场景做出合理的预测，我们设计了一种新的提示策略，如图 3 (a) 所示。我们使用全景图像作为图像提示，PredictVLM 负责预测每个视角的Curiosity Value，该值代表目标在每个方向上存在的可能性，取值范围为0到10。VLM为每个方向输出得分，记为。在每个时刻，全景图像输入PredictVLM，输出当前各方向的得分：这些得分可用于构建Curiosity Value Map。

图3.PredictVLM预测目标出现的可能性和Curiosity Value Map构建过程

Curiosity Value Map构建：Curiosity Value Map的大小为map_size× map_size×1，其中每个像素值代表整个场景中对应位置的Curiosity Value，范围为 0 到 10。对于已访问且未发现目标物体的区域，Curiosity Value设为0。例如，已观察到的卧室中若没有目标电视，则其Curiosity Value为0。能够直接观察到目标的区域Curiosity Value为10。对于尚未发现目标但可能通往目标的区域，基于视觉语言模型（VLM）的想象将Curiosity Value设在0 到10之间。构建和更新过程如图 3 © 所示。
Cost：世界模型中的Cost模块用于提供环境奖励。在我们的工作中，我们将Subtask和Goal flag作为Cost。Goal flag表示PlanVLM是否在所选图像中观察到目标。Cost作为Prompt的一部分输入到PlanVLM和ReasonVLM中，隐式优化导航策略模块的输出。PlanVLM接收上一步的Subtask，ReasonVLM接收当前Subtask和Goal flag，以在两种配置状态之间切换。

3）子任务分解

图4.PlanVLM进行路径规划和子任务分解

在完全未知的环境中规划前往未知目标的路径是一项极具挑战性的任务，因为模型很难获得密集的奖励。分解最终目标，在每一步确定一个中间子任务是有帮助的。例如，在寻找床时，一种高效的方法是先找到可以通往卧室的走廊，再靠近卧室门口，最后接近床。我们采用子任务分解策略以从环境中获取更多反馈。在将更新后的Curiosity Value Map存储在Memory中后，将其投影回当前的可行驶区域，并计算每个方向的平均Curiosity Value以获得最终得分。然后，我们选择得分最高的方向所对应的可行驶区域。我们对这张图片进行了更具体的规划，如图 4所示。具体来说，图片和之前的子任务输入PlanVLM，它会规划下新的子任务以及目标标志：

4）两阶段动作提议器

图5.ReasonVLM进行动作推理

为了使智能体在执行动作决策时更具目的性，并减少视觉语言模型在准确估计图像中物体距离时的幻觉，我们将整个动作决策过程分为两个阶段，如图 5所示。第一阶段为探索阶段，任务是探索最有可能发现目标的区域，第二阶段是接近目标阶段，任务是尽可能靠近目标并在目标处停止。

探索阶段：

给定子任务和，为满足子任务的要求，视觉语言模型 (VLM) 从中的动作序列中选择最合适的动作执行：
接近目标阶段：

由于现有VLM的能力有限，我们不直接依赖VLM在观测图像上估计停止条件，我们采用类似于探索阶段的策略来确定目标的确切位置，以使停止条件更可靠，取消动作向量的长度限制，并且在可行驶区域的执行更密集的采样，这种策略能够实现对目标的精确定位。

实验

1）数据集和指标

实验在HM3D和MP3D数据集上进行，以模拟现实世界条件。HM3D v0. 1数据集包含20个验证环境，每个环境有100个验证场景，共2000个验证场景，涵盖6个目标物体类别。 HM3D v0.2是HM3D的新版本，质量更高，改进了几何形状和语义标签。实验采用SR和SPL作为评估指标，SR 表示成果完成任务的episode数占比，SPL通过计算实际路径长度与最优路径长度的比值的倒数，乘以成功率来量化智能体的导航效率。

2）实验设置

我们将智能体的最大导航步数设定为40步。智能体采用半径为0.18米、高为0.88 米的圆柱形身体。我们为智能体配备了一个分辨率为640×480的以自我为中心的 RGB-D相机，水平视场角为79°，相机向下倾斜14°，这有助于确定可通行区域。如果智能体在距离目标小于0.1米时停止，该回合即视为成功。我们主要使用谷歌的Gemini VLM进行实验，因其成本低且效果显著。

3）与SOTA方法对比

我们在MP3D和HM3D基准测试上将WMNav方法与目标导航的代表性方法进行了比较。如表1所示，我们的方法优于所有最先进的零样本方法（在HM3D上SR提升3.2%，SPL提升3.2%，在MP3D上SR提升13.5%，SPL提升 1.1%）。与所有方法（包括监督学习的方法）相比，我们的方法在 MP3D上实现了最优的SR，在HM3D上实现了最佳的SPL，这证明了我们方法的有效性。

表1.在HM3D v0.1和MP3D基准测试上零样本物体导航的结果，TF代表无训练，ZS代表零样本

4）消融实验

不同模块的影响。为了体现每个模块的作用，我们在更具代表性的HM3D v0.2数据集上比较了三个模型。移除TAP模块意味着仅保留探索阶段的动作提议器，在检测到目标后不计算目标位置，而是依赖于stoppingVLM根据观察结果直接确定停止条件。如表2所示，a和b、a和d、e和f分别展示了模块“子任务分解”、“Curiosity Value Map”和“两阶段动作提议器”在提升导航性能方面的作用。

表2.在HM3D v0.2上对不同模块和记忆策略的消融研究。SD指子任务分解，TAP指两阶段动作提议策略，No指没有任何Memory，Text-Image指的是文本-图像记忆，CVM指Curiosity Value Map

不同VLM的影响。我们进一步评估了不同视觉语言模型在导航任务中的能力，结果如表3所示。 Gemini 1.5 Pro（第 3 行）在该任务中表现出卓越的性能。值得注意的是，即使使用更小的 Gemini 1.5 Flash，我们的方法在HM3D上仍能与其它方法相媲美，这表明我们的框架的有效性，不仅仅依赖于视觉语言模型的能力。此外，随着开源和专有VLM的发展，我们模型中每个模块的能力仍有提升的潜力。

表3.不同VLM在HM3D v0.1上的消融实验结果

不同Memory策略的影响。如表2所示，No表示不使用任何记忆。Text-Image首先使用视觉语言模型 (VLM) 生成观察结果的文字描述，它构建一个自上而下的轨迹地图，然后将其作为Prompt输入到VLM中进行规划。CVM是我们采用的方法，它使用Curiosity Value Map作为记忆。这三种策略都使用了 SD，但未使用TAP（分别对应b、c和e）。Text-Image策略的表现甚至比No Memory策略更差。这是因为直接将文本图像组合输入到VLM中容易导致幻觉，进而产生错误的记忆信息。我们的方法在SR和 SPL指标上都有显著提升，这是因为Curiosity Value Map的定量构建迫使VLM尽可能严格地生成输出，保证每次调用的准确性，从而确保记忆的可靠性。

总结

我们提出了 WMNav，它通过在世界模型框架中利用视觉语言模型 (VLMs)，为未知环境中的目标导航找到了一条新颖的技术路径，并显著提升了零样本目标导航 (ZSON) 的性能。我们的方法通过采用在线Curiosity Value Map来定量预测目标存在的可能性，解决了来回冗余移动造成的低效问题。子任务分解模块为基于Prompt的策略模块优化提供了更密集的奖励。此外，两阶段动作提议器使得导航更具目的性，探索更高效。通过基于VLM 构建世界模型架构、简洁的记忆地图构建以及任务分解，WMNav 为ZSON任务指明了新的优化方向，并为具身机器人与环境的交互开辟了新的途径。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述