ACL Findings-2024 | 导航智能体知错就改！CorNav：具有自我校正规划的zero-shot视觉语言导航智能体

最新推荐文章于 2025-08-22 17:29:16 发布

原创最新推荐文章于 2025-08-22 17:29:16 发布 · 1.1k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #prompt #架构 #机器学习 #mvc

作者：Xiwen Liang, Liang Ma, Shanshan Guo, Jianhua Han, Hang Xu
单位：中山大学深圳校区，东北大学，华为诺亚方舟实验室，数据机器人公司，鹏城实验室
论文链接：CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation (https://aclanthology.org/2024.findings-acl.745.pdf)
项目主页：https://mligg23.github.io/CorNav-Site
代码链接：https://github.com/liangcici/MO-VLN

主要贡献

CorNav结合了多个领域专家进行指令解析、场景理解和预测动作的精细化，在探索过程中根据环境反馈主动调整计划，具备自我修正能力，显著提升了导航的准确性和鲁棒性。
开发了基于Unreal Engine 5的真实模拟器，提供了更高的视觉质量和细节，增强了实验的真实感和挑战性。
建立了NavBench多任务基准测试，利用GPT-4生成和精细化指令，避免了传统数据收集的繁琐过程。
基准测试涵盖了目标物体导航、简单指令导航、抽象指令完成和逐步指令跟随等多种任务，全面评估了导航方法的能力。

研究背景

研究问题

现有的视觉语言导航（VLN）方法大多在不太真实的模拟器环境中运行，没有将环境反馈纳入决策过程。本文主要解决的问题是如何在复杂的真实环境中理解和遵循自然语言指令进行导航。

研究难点

该问题的研究难点包括：

处理现实世界中的障碍物和行人，
在连续环境中进行zero-shot导航，
有效地结合环境反馈和历史轨迹信息进行自我修正规划。

研究方法

论文提出CorNav，用于zero-shot视觉语言导航的自修正规划自主智能体。

领域专家

在CorNav框架中，领域专家是实现导航任务的关键组成部分。这些专家包括指令解析专家、视觉感知专家和决策专家：

指令解析专家负责从简单到复杂的导航任务，提取关键信息并生成导航计划。
视觉感知专家通过结合图像标注模型RAM++和开放词汇定位模型Grounding DINO，提供环境信息，增强环境感知。
决策专家监督预测动作，审查规划器生成的决策，确保其合理性。这些专家协同工作，使CorNav在导航过程中能够有效地解析指令、感知环境并做出决策。

环境反馈

环境反馈分为在计划内的反馈（In-Plan Feedback）和在计划外的反馈（Out-of-Plan Feedback）：

在计划内的反馈通过Grounding DINO模型和SAM模型精确定位对象或房间，评估动作成功与否，并据此调整计划。
在计划外的反馈处理执行失败情况，触发新计划的生成。

导航讨论机制

智能体调用指令解析专家提取地标或推断目标，生成初始计划。在每个时间步，如果接收到计划外反馈，触发一系列动作生成新计划，并结合决策专家的最终决策。

初始计划生成阶段，规划器利用指令解析专家I从指令中提取信息，生成初始计划p。
环境感知阶段，视觉感知专家V处理观察结果O，总结图像标注和对象检测。
历史信息存储阶段，轨迹历史缓冲区H记录观察、思考和动作历史。
反馈处理阶段，规划器在接收到计划外反馈f时，结合历史信息H、视觉感知V、指令I和当前计划p，生成新计划p’和决策a’。
最终决策阶段，规划器与决策专家D交互，确定最终导航决策。

局部策略

局部策略负责从当前位置到目标位置的路径规划。该策略首先确定目标位置，然后运用Fast Marching Method计算最短路径。智能体随后沿计算出的路径移动至目标位置，避开障碍物。

NavBench数据集

NavBench是一个专为零样本视觉-语言导航（VLN）任务设计的多任务基准测试平台，旨在评估导航方法在多种场景下的性能。

任务定义

该平台包含四个任务：

对象导航（ObjectNav）、
简单指令导航（Simple）、
抽象指令（Abstract）、
逐步指令遵循（Step-by-step），

覆盖了从具体到抽象的导航需求。

数据统计

NavBench利用GPT-4生成贴近现实的高质量指令，减少了数据收集的工作量。数据集涵盖餐厅、咖啡馆、护理室和家庭设置四个场景，共包含1615条指令，分布为对象导航81条、简单任务494条、抽象任务278条和逐步指令遵循762条。

实验

实验设置

导航指标：使用标准导航指标来衡量性能，包括成功率（SR）、成功率加权逆路径长度（SPL）和距离成功率阈值（DTS）。
实体定义：定义了四个动作：向前移动、左转、右转和停止。向前移动动作使智能体前进20厘米，左转和右转动作分别转动15度。
零样本方法：实现了七个基线模型，使用三种不同的方法进行零样本对象导航。这些方法主要针对对象导航，可能难以处理较长的指令，因此使用LLMs进行指令解析。

零样本方法比较

结果表明，结合GLIP或Grounding DINO的模型表现优于CoW基线。
ESC中的共现知识对结果的影响较小，基于常识选择边界可能不理想。

CorNav与其他方法比较

CorNav在所有四个任务中均优于所有基线模型，平均成功率（SR）为28.1%，比最佳基线提高了7.6%。
在逐步任务中，CorNav的成功率提高了8.6%，突显了其结合环境反馈和轨迹历史的能力。

消融研究

消融研究表明，环境反馈和轨迹历史对性能有显著提升，多专家咨询在抽象任务中尤其有效，指令解析专家将成功率提高了8.3%。

结合图像标签和检测结果的视觉感知专家表现最佳。

总结

论文提出了CorNav，用于zero-shot视觉语言导航。CorNav在利用环境反馈细化计划方面表现出色，确保了对动态环境的适应性。它还结合了多个领域专家进行指令解析、场景理解和动作细化。

论文还开发了一个更真实的模拟器NavBench，并使用GPT-4生成了多样化的指令数据。实验结果表明，CorNav在各种导航任务中显著优于基线方法。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述