ICML-2024 | Voronoi图助力具身导航！VoroNav：基于大模型和Voronoi图的零样本目标导航

最新推荐文章于 2025-07-03 16:30:12 发布

原创最新推荐文章于 2025-07-03 16:30:12 发布 · 1.2k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#langchain #neo4j #知识图谱 #低代码 #人工智能

论文链接：VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language Model (https://openreview.net/pdf?id=Va7mhTVy5s)
项目主页：https://voro-nav.github.io/

主要贡献

Voronoi图生成：引入了基于Voronoi的场景图生成方法，用于零样本目标对象导航（Zero-Shot Object Navigation，ZSON），旨在选择提供丰富观测数据的路径点，以促进后续的规划过程。
创新的提示策略：设计了场景表示提示策略，结合路径和远景描述，为LLM提供全面的场景描述，以便分析和评估。
决策机制：提出了一种新的决策机制，需要在探索、路径效率和常识倾向之间进行权衡，以实现合理的行动。
新的SOAT：在ZSON任务上实现了SOAT结果，在代表性的数据集（如HM3D和HSSD）上超越了基准方法。

研究背景

研究问题

论文主要解决的问题是如何让家庭机器人实现零样本目标对象导航（ZSON），即让智能体能够在没有预训练的情况下，熟练地遍历不熟悉的环境并定位到全新类别的物体。

研究难点

该问题的研究难点包括：

现有方法在探索效率和路径规划上的不足，尤其是在处理全新目标物体的导航时；
如何有效地结合语义信息和拓扑信息来提高导航的准确性和效率。

研究方法

论文提出了VoroNav，一种基于Voronoi图的零样本目标对象导航框架。该方法包括三个主要模块：语义映射模块、全局决策模块和局部策略模块。

任务定义

零样本目标对象导航（ZSON）任务要求智能体能够在没有针对特定类别的预先训练的情况下，导航到一个全新类别的目标对象。

智能体从指定的起始点开始，根据观察到的RGB-D图像和实时位姿进行决策，目标是找到目标对象并到达距离目标小于0.1米的距离。

智能体到达目标并执行“停止”命令时任务定义为成功，否则任务失败。

语义映射模块

通过处理RGB-D图像和位姿来维护一个二维语义地图。语义地图是一个的网格，包含个类别图、一个障碍物图和一个已探索图。

通过深度信息和位姿，3D点云被映射到语义地图中，以表示可行区域、障碍物区域和已探索区域。

全局决策模块

通过生成广义Voronoi图（GVD）来提取无障碍空间的中轴路径，并将其转换为Reduced Voronoi Graph（RVG）。节点被分类为智能体节点、邻居节点、探索节点和普通节点。路径描述通过Wavefront Propagation方法生成，并创建文本描述来体现每条路径的场景。远景描述通过捕捉邻居节点的RGB图像生成，以补充语义信息。
使用LLM进行决策，结合路径和远景描述生成提示，以帮助LLM理解场景并做出决策。通过考虑探索目标、路径效率和常识倾向，选择期望最高的邻居节点作为中期目标。

局部策略模块

使用快速行进法（Fast Marching Method）从当前位置到目标位置找到最短路径，并选择最近的坐标作为导航目标。一旦到达Voronoi节点，智能体会旋转并重复中期目标的选取过程。

实验设计

数据集

HM3D数据集提供了20个建筑物的高质量重建模型，包含2K个验证集；
HSSD数据集提供了40个高质量合成场景，包含1.2K个验证集。

评估指标

采用成功率（Success）和成功加权路径长度（SPL）作为评估指标。

成功率表示成功导航的集数占总集数的百分比，
SPL通过实际路径长度与最优路径长度的比值（加权成功率）来量化导航效率。

基线方法

随机探索（Random Exploration）：智能体随机采样未探索区域的点进行导航。
前沿（Frontier）：选择未探索区域的最近边界点作为中期目标。
Voronoi：类似于VoroNav，但不考虑语义奖励。
L3MVN：利用LLM通过评估由前沿点聚类的区域来选择最佳的中期路径点。
Pixel-Nav：基于图像的零样本导航，分析全景图像并利用LLM确定探索的最优像素。
ESC：利用LLM从前沿点确定中期目标，进行探索。

结果与分析

与最先进方法的对比

VoroNav在HM3D和HSSD数据集上均优于现有的最先进方法，成功率和SPL均有显著提升。

消融实验

通过消融实验，验证了路径描述和远视描述对VoroNav性能的提升作用。

结果表明，VoroNav在所有消融模型中表现最佳，集成路径和远视描述的模型在导航性能和LLM推理能力上均优于单一描述模型。

规划效果分析

引入了两个新的规划效果评估指标：碰撞避免成功率（SCA）和探索区域成功率（SEA）。

结果显示，VoroNav在SCA和SEA指标上均显著优于前沿探索方法，表明其在避障和低成本探索方面具有优势。

不同LLM的影响

在不同LLM模型上的实验表明，使用更强的LLM模型（如Gemini-pro、GPT-3.5和GPT-4）可以进一步提升VoroNav的导航性能。

时间消耗统计

记录了框架各部分的时间消耗，发现局部步骤的时间消耗对实时性能影响最大。

总体结论

论文提出的VoroNav框架通过引入基于Voronoi图的语义探索和LLM辅助决策，显著提高了零样本目标的性能。

该方法克服了传统端到端和基于地图方法的局限性，通过生成信息丰富的导航点和创新的文本信息融合表示环境，实现了更策略化的导航和高效的探索。

VoroNav为ZSON任务设定了新的基准，并为智能机器人系统与环境的交互开辟了新的途径。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述