你的VLM竟是潜在的世界模型?颠覆传统!WMNav突破室内导航瓶颈

img

图1.基于视觉语言模型的世界模型导航

  • 作者:Dujun Nie, Xianda Guo, Yiqun Duan, Ruijun Zhang, Long Chen
  • 单位:中科院自动化所,武汉大学,悉尼科技大学,西安交通大学,中科慧拓
  • 论文标题:WMNav: Integrating Visual-Language Models into World Models for Object Goal Navigation
  • 论文地址:https://arxiv.org/abs/2503.02247
  • 项目地址:https://b0b8k1ng.github.io/WMNav/

主要贡献

  • 论文提出了WMNav,一种基于视觉语言模型 (Vision-Language Model) 的新型世界模型导航方法,旨在解决复杂室内环境中的Object Goal Navigation任务。该模型通过预测世界未来状态来减少机器人与环境可能的高风险和高成本交互行为。
  • 设计了一种新的记忆策略,用于保存预测的环境状态,该策略采用在线Curiosity Value Map,定量存储世界模型所预测的不同场景下目标存在的可能性大小。
  • 提出了一种具有反馈的子任务分解方法以及两阶段动作提议策略,增强视觉语言模型推理结果的可靠性,提高探索效率。
  • 我们在Zero-shot Object Goal Navigation任务中取得了最先进的成果,在HM3D和MP3D数据集上的性能超过了已有的基准方法 (+3.2% SR and +3.2% SPL on HM3D, +13.5% SR and +1.1% SPL on MP3D)。

零样本目标导航的困境

在家用机器人的应用中,要实现高效导航,零样本目标导航(ZSON)至关重要。它要求机器人在从未见过的环境中,找到特定类别的目标物体。这一任务困难重重,一方面,机器人需要运用广泛的语义知识来指导行动,同时还要精准识别从未见过的目标物体;另一方面,现有的导航方法存在诸多局限:Network-based方法通常使用强化学习或模仿学习,这需要大量的高质量室内机器人数据,计算资源消耗大,成本高昂;Map-based方法需要构建精细的语义地图来帮助理解场景信息,地图构建复杂且耗时,路径规划过度依赖精确地图,探索效率低下。最重要的是,大多数现有方法都需要与环境进行大量实际交互才能获得相对准确的场景理解,没有对环境未来状态和潜在行动结果的预测,在未知场景中不能进行预期规划和推理,导致冗余移动、重复探索等问题。

方法

img

图2.WMNav框架

1)任务定义

传统的Object Goal Navigation任务要求智能体探索未知的室内环境,并导航至给定类别(例如床、沙发、马桶)中的任意实例。智能体从指定的初始位置开始。在每个时刻,智能体获取周围环境的RGB-D观测值及其实时姿态。 然后,智能体选择动作以寻找目标。如果智能体在距离目标的预定义距离阈值内停止,则任务视为成功。尽管大多数先前的工作使用离散动作空间, 例如 {Stop、MoveForward、TrunLeft、TrunRight、LookUp、LookDown},但我们采用极坐标、来表示动作 ,其中表示动作的方向,表示动作移动的距离。

2)概述

全景理解对于形成全面的环境感知至关重要。为此,智能体进行一系列旋转,捕获六张不同视角的RGB-D图像,将其拼接为全景图像。在我们的 方法中,世界模型由PredictVLM和Memory模块组成。世界模型并不接收来自环境的任何实际奖励信号,这意味着它仅用于预测和简化环境的未来状态。PredictVLM首先定量预测目标在每个方向存在的可能性,并将得分从全景图像投影到鸟瞰图。再将该图与上一时刻构建的Curiosity Value Map合并,存储在Memory中。接着,将得分逆投影回全景图像上。然后,选择全景图像中得分最高的方向输入到Navigation Policy模块。Navigation Policy模块能够获取来自环境的奖励信息。在策略模块中,对于PlanVLM和ReasonVLM,利用Cost(上一步的Subtask和Goal flag)来配置它们的Prompt,从而优化整个策略模块的动作输出,而无需对视觉语言模型进行任何微调。WMNav的总体框架如图2所示。

2)世界模型

  • 基于视觉语言模型的状态预测:世界模型的核心能力在于估计感知未提供的世界状态,并预测可能的未来状 态变化。我们在世界模型中采用视觉语言模型 (VLM) 作为预测器。为了引导VLM对室内场景做出合理的预 测,我们设计了一种新的提示策略,如图 3 (a) 所示。我们使用全景图像作为图像提示,PredictVLM 负责预测每个视角的Curiosity Value,该值代表目标在每个方向上存在的可能性,取值范围为0到10。VLM为每个方向输出得分,记为。在每个时刻,全景图像输入PredictVLM,输出当前各方向的得分:这些得分可用于构建Curiosity Value Map。

img

图3.PredictVLM预测目标出现的可能性和Curiosity Value Map构建过程

  • Curiosity Value Map构建:Curiosity Value Map的大小为map_size× map_size×1,其中每个像素值代表整个场景中对应位置的Curiosity Value,范围为 0 到 10。对于已访问且未发现目标物体的区域,Curiosity Value设为0。例如,已观察到的卧室中若没有目标电视,则其Curiosity Value为0。能够直接观察到目标的区域Curiosity Value为10。对于尚未发现目标但可能通往目标的区域,基于视觉语言模型(VLM)的想象将Curiosity Value设在0 到10之间。构建和更新过程如图 3 © 所示。
  • Cost:世界模型中的Cost模块用于提供环境奖励。在我们的工作中,我们将Subtask和Goal flag作为Cost。Goal flag表示PlanVLM是否在所选图像中观察到目标。Cost作为Prompt的一部分输入到PlanVLM和ReasonVLM中,隐式优化导航策略模块的输出。PlanVLM接收上一步的Subtask,ReasonVLM接收当前Subtask和Goal flag,以在两种配置状态之间切换。

3)子任务分解

img

图4.PlanVLM进行路径规划和子任务分解

在完全未知的环境中规划前往未知目标的路径是一项极具挑战性的任务,因为模型很难获得密集的奖励。分解最终目标,在每一步确定一个中间子任务是有帮助的。例如,在寻找床时,一种高效的方法是先找到可以通往卧室的走廊,再靠近卧室门口,最后接近床。我们采用子任务分解策略以从环境中获取更多反馈。在将更新后的Curiosity Value Map存储在Memory中后,将其投影回当前的可行驶区域,并计算每个方向的平均Curiosity Value以获得最终得分。 然后,我们选择得分最高的方向所对应的可行驶区域。我们对这张图片进行了更具体的规划,如图 4所示。具体来说,图片和之前的子任务输入PlanVLM,它会规划下新的子任务以及目标标志:

4)两阶段动作提议器

img

图5.ReasonVLM进行动作推理

为了使智能体在执行动作决策时更具目的性,并减少视觉语言模型在准确估计图像中物体距离时的幻觉,我们将整 个动作决策过程分为两个阶段,如图 5所示。第一阶段为探索阶段,任务是探索最有可能发现目标的区域,第二阶段是接近目标阶段,任务是尽可能靠近目标并在目标处停止。

  • 探索阶段:

    给定子任务和,为满足子任务的要求,视觉语言模型 (VLM) 从中的动作序列 中选择最合适的动作执行:

  • 接近目标阶段:

    由于现有VLM的能力有限,我们不直接依赖VLM在观测图像上估计停止条件,我们采用类似于探索阶段的策略来确定目标的确切位置,以使停止条件更可靠,取消动作向量的长度限制,并且在可行驶区域的执行更密集的采样,这种策略能够实现对目标的精确定位。

实验

1)数据集和指标

实验在HM3D和MP3D数据集上进行,以模拟现实世界条件。HM3D v0. 1数据集包含20个验证环境,每个环境有100个验证场景,共2000个验证场景,涵盖6个目标物体类别。 HM3D v0.2是HM3D的新版本,质量更高,改进了几何形状和语义标签。实验采用SR和SPL作为评估指标,SR 表示成果完成任务的episode数占比,SPL通过计算实际路径长度与最优路径长度的比值的倒数,乘以成功率来量化智能体的导航效率。

2)实验设置

我们将智能体的最大导航步数设定为40步。智能体采用半径为0.18米、高为0.88 米的圆柱形身体。我们为智能体配备了一个分辨率为640×480的以自我为中心的 RGB-D相机,水平视场角为79°,相机向下倾斜14°,这有助于确定可通行区域。如果智能体在距离目标小于0.1米时停止,该回合即视为成功。我们主要使用谷歌的Gemini VLM进行实验,因其成本低且效果显著。

3)与SOTA方法对比

我们在MP3D和HM3D基准测试上将WMNav方法与目标导航的代表性方法进行了比较。如表1所示,我们的方法优于所有最先进的零样本方法(在HM3D上SR提升3.2%,SPL提升3.2%,在MP3D上SR提升13.5%,SPL提升 1.1%)。与所有方法(包括监督学习的方法)相比,我们的方法在 MP3D上实现了最优的SR,在HM3D上实现了最佳的SPL,这证明了我们方法的有效性。

表1.在HM3D v0.1和MP3D基准测试上零样本物体导航的结果,TF代表无训练,ZS代表零样本

img

4)消融实验

  • 不同模块的影响。为了体现每个模块的作用,我们在更具代表性的HM3D v0.2数据集上比较了三个模型。移除TAP模块意味着仅保留探索阶段的动作提议器,在检测到目标后不计算目标位置,而是依赖于stoppingVLM根据观察结果直接确定停止条件。如表2所示,a和b、a和d、e和f分别展示了模块“子任务分解”、“Curiosity Value Map”和“两阶段动作提议器”在提升导航性能方面的作用。

表2.在HM3D v0.2上对不同模块和记忆策略的消融研究。SD指子任务分解,TAP指两阶段动作提议策略,No指没有任何Memory,Text-Image指的是文本-图像记忆,CVM指Curiosity Value Map

img

  • 不同VLM的影响。我们进一步评估了不同视觉语言模型在导航任务中的能力,结果如表3所示。 Gemini 1.5 Pro(第 3 行)在该任务中表现出卓越的性能。值得注意的是,即使使用更小的 Gemini 1.5 Flash,我们的方法在HM3D上仍能与其它方法相媲美,这表明我们的框架的有效性,不仅仅依赖于视觉语言模型的能力。此外,随着开源和专有VLM的发展,我们模型中每个模块的能力仍有提升的潜力。

表3.不同VLM在HM3D v0.1上的消融实验结果

img

  • 不同Memory策略的影响。如表2所示,No表示不使用任何记忆。Text-Image首先使用视觉语言模型 (VLM) 生成观察结果的文字描述,它构建一个自上而下的轨迹地图,然后将其作为Prompt输入到VLM中进行规划。CVM是我们采用的方法,它使用Curiosity Value Map作为记忆。这三种策略都使用了 SD,但未使用TAP(分别对应b、c和e)。Text-Image策略的表现甚至比No Memory策略更差。这是因为直接将文本图像组合输入到VLM中容易导致幻觉,进而产生错误的记忆信息。我们的方法在SR和 SPL指标上都有显著提升,这是因为Curiosity Value Map的定量构建迫使VLM尽可能严格地生成输出,保证每次调用的准确性,从而确保记忆的可靠性。

总结

我们提出了 WMNav,它通过在世界模型框架中利用视觉语言模型 (VLMs),为未知环境中的目标导航找到了一条新颖的技术路径,并显著提升了零样本目标导航 (ZSON) 的性能。我们的方法通过采用在线Curiosity Value Map来定量预测目标存在的可能性,解决了来回冗余移动造成的低效问题。子任务分解模块为基于Prompt的策略模块优化提供了更密集的奖励。此外,两阶段动作提议器使得导航更具目的性,探索更高效。通过基于VLM 构建世界模型架构、简洁的记忆地图构建以及任务分解,WMNav 为ZSON任务指明了新的优化方向,并为具身机器人与环境的交互开辟了新的途径。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

在这里插入图片描述

<think>好的,我现在需要处理用户的问题:“vlm指的是视觉语言模型”。首先,我要确定用户提到的“VLM”具体指什么。因为在之前的对话历史中,用户曾询问过理想汽车的E2E和VLM双系统,当时VLM被解释为“视觉-激光雷达多模态”系统。但现在用户的问题明显是在问“视觉语言模型”,也就是Vision-Language Model,这通常是自然语言处理和计算机视觉交叉的领域。 首先,我需要确认用户是否在同一个上下文中提问,或者是否切换了主题。可能的情况是,用户之前讨论的是自动驾驶系统中的VLM,但现在转而询问另一个领域的VLM,即视觉语言模型。或者用户可能对术语混淆,需要澄清。 接下来,我需要检查之前的对话历史,确保没有误解。在之前的回答中,理想汽车的VLM是指视觉-激光雷达多模态系统,而视觉语言模型则是另一个不同的概念。因此,用户可能在新的问题中切换了话题,需要明确区分这两个缩写。 此时,我需要决定如何回应。正确的做法是首先告知用户VLM在不同领域可能有不同的含义,并分别解释。尤其是当用户之前提到的VLM在自动驾驶中代表视觉-激光雷达多模态系统,而现在询问的VLM可能指视觉语言模型时,必须明确两者的区别,避免混淆。 接下来,我需要详细解释视觉语言模型(Vision-Language Model)的定义、应用、技术架构以及实际例子。同时,也需要提及在自动驾驶中VLM的不同含义,确保用户理解上下文的不同。需要保持回答结构清晰,分点说明,使用户能够逐步理解这两个概念的不同之处。 另外,要确保使用正确的中文术语,避免专业术语的误用。例如,解释视觉语言模型时,需要提到多模态学习、预训练模型、图像文本对齐等关键技术点。同时,要提供实际应用的例子,如GPT-4V、BLIP-2等,帮助用户具体理解。 还需要考虑用户可能的深层需求。用户可能是在研究自动驾驶技术时遇到了VLM的不同解释,或者在自然语言处理领域接触到视觉语言模型,因此需要明确两者的区别和应用场景。因此,在回答中强调上下文的重要性,帮助用户根据具体领域正确理解术语。 最后,确保回答符合之前的系统级指令,使用正确的LaTeX格式,行内公式用$...$,独立公式用$$...$$,结构清晰,分点列出,技术细节准确无误。同时,保持语言简洁,避免冗长,让用户能够快速获取所需信息。</think>在技术领域中,**VLM** 的缩写可能指向不同概念,需结合上下文区分。以下是两种常见定义: --- ### **1. 视觉语言模型(Vision-Language Model)** **定义**:一种结合**视觉(图像/视频)与自然语言**的多模态人工智能模型,核心目标是实现**视觉内容与文本的双向理解与生成**。 #### **关键技术特性** - **多模态对齐**: 建立图像像素与语言词汇的语义关联,例如通过对比学习(Contrastive Learning)对齐特征空间: $$ \mathcal{L}_{\text{CL}} = -\log \frac{e^{\text{sim}(I,T)/\tau}}{\sum_{j=1}^N e^{\text{sim}(I,T_j)/\tau}} $$ 其中$I$为图像特征,$T$为文本特征,$\tau$为温度系数。 - **跨模态生成**: 支持“图生文”(图像描述、问答)和“文生图”(文本引导图像生成),典型架构如: - **编码器-解码器**:ViT(视觉编码器) + GPT(文本解码器) - **统一Transformer**:Flamingo、BLIP-2(Q-Former桥接视觉与语言模态) - **零样本迁移**: 通过大规模预训练(如LAION-5B数据集),实现无需下游任务微调的开放域泛化,例如: ```python model.generate("图像中人物的情绪是?", image=img) # 直接输入图像+问题 ``` #### **典型应用场景** | 任务类型 | 示例 | 代表模型 | |------------------|-------------------------------|--------------------| | **图像描述** | 生成“一只猫在沙发上睡觉” | BLIP、OFA | | **视觉问答** | 回答“图片中有多少只动物?” | ViLBERT、Flamingo | | **文生图** | 生成“未来城市夜景” | DALL-E 3、Stable Diffusion | | **多模态推理** | 分析医学影像并输出诊断建议 | BiomedCLIP | --- ### **2. 自动驾驶中的VLM(视觉-激光雷达多模态系统)** 在理想汽车等自动驾驶系统中,**VLM** 特指 **Visual-LiDAR Multimodal System**,强调**视觉与激光雷达的融合感知**,与上述视觉语言模型无直接关联。 #### **核心差异对比** | 维度 | 视觉语言模型 (Vision-Language Model) | 自动驾驶VLM (Visual-LiDAR Multimodal) | |--------------------|--------------------------------------------|----------------------------------------| | **输入模态** | 图像 + 文本 | 摄像头图像 + 激光雷达点云 | | **输出目标** | 文本生成/理解 | 3D环境感知与运动控制 | | **关键技术** | 跨模态注意力、对比学习 | 传感器标定、多模态融合 | | **典型模型** | CLIP、GPT-4V | PointPainting、MV3D | --- ### **如何区分两者?** - **看应用领域**: - 若涉及**图像与文本交互**(如AI绘画、智能客服),指向**视觉语言模型**; - 若在**自动驾驶、机器人**场景中讨论,则多为**视觉-激光雷达多模态系统**。 - **看技术文档**: - 视觉语言模型常关联**NLP任务**(如HuggingFace库、CLIP论文); - 自动驾驶VLM则强调**点云与图像融合**(如Waymo、特斯拉技术方案)。 建议根据具体上下文选择解释方向。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值