摘要
目标导向导航要求智能体在陌生环境中定位特定对象,这始终是具身AI的核心挑战。尽管基于视觉语言模型(VLM)的智能体通过提示机制展现出优异的感知与决策能力,但尚未出现能通过预测世界未来状态来减少环境交互风险与成本的模块化世界模型设计。我们提出WMNav——一个由视觉语言模型驱动的创新型世界模型导航框架,它能预测决策可能结果并构建记忆反馈给策略模块。为保持环境预测状态,WMNav创新性地提出在线维护的好奇价值地图作为世界模型记忆组件,为导航策略提供动态配置。通过类人思维过程的分解决策,基于世界模型规划与观测反馈的差异有效缓解了模型幻觉的影响。为提升效率,我们采用两阶段动作提议策略:先广泛探索后精确定位。在HM3D和MP3D数据集上的大量实验表明,WMNav在成功率和探索效率上均超越现有零样本基准(绝对提升:HM3D上+3.2%SR和+3.2%SPL,MP3D上+13.5%SR和+1.1%SPL)。
算法框架与部分实验
- 算法框架
WMNav框架如图所示。全景理解是实现全面感知的关键。为此,智能体进行一系列旋转****并捕获六张不同的RGB-D图像,这些图像被转换为全景图像 。在我们的框架中,世界模型由PredictVLM和由好奇心价值图与成本构建的记忆组成。该世界模型不接收来自环境的实际奖励信号,这意味着它仅用于预测和简化环境的未来状态。PredictVLM定量预测目标出现在各个方向的概率,并将分数从全景图像投影到俯视地图上。该地图随后与上一步的好奇心价值图融合并存入记忆。之后,好奇心分数被重新投影到全景图像上,选择得分最高的方向并发送至导航策略模块。导航策略模块可获取环境提供的奖励信息。对于策略模块中的PlanVLM和ReasonVLM,使用成本(上一步的子任务和目标标志)来配置其提示,从而优化整个策略模块的动作输出,无需对VLMs进行任何微调。

The WMNav framework.
- 部分实验结果

HM3D v0.1[34]与MP3D[18]基准测试中的零样本物体导航结果。TF表示免训练,ZS表示零样本

HM3D v0.2[34]上不同模块与记忆策略的消融研究。SD表示子任务分解,TAP表示两阶段动作提议策略,No表示无记忆模块,Text-Image表示文本-图像记忆,CVM表示好奇心价值地图。
总结
我们提出的WMNav系统为未知环境中的目标导航开辟了新方向,通过在世界模型框架中运用视觉语言模型(VLM),显著提升了零样本目标导航(ZSON)性能。该方法采用在线好奇心价值地图定量预测目标存在概率,解决了往返冗余移动导致的效率低下问题。子任务分解模块为基于提示的策略优化提供了更密集的奖励。此外,两阶段动作提议策略实现了更具目的性的导航和高效探索。通过构建基于VLM的世界模型架构、简洁的记忆地图和任务分解机制,WMNav为ZSON任务指明了新的优化方向,为具身机器人与环境交互开辟了新途径。
Vi-LAD:面向动态环境社会感知机器人导航的视觉-语言注意力蒸馏方法
论文信息
- **标题******:Vi-LAD: Vision-Language Attention Distillation for Socially-Aware Robot Navigation in Dynamic Environments**
- **作者******:Mohamed Elnoor, Kasun Weerakoon, Gershom Seneviratne, Jing Liang, Vignesh Rajagopal, and Dinesh Manocha**
- **单位******:马里兰大学帕克分校**
- **项目地址******:https://gamma.umd.edu/researchdirections/crowdmultiagent/vilad/**
摘要
**本文提出视觉-语言注意力蒸馏(Vi-LAD),这是一种从大型视觉语言模型(VLM)中提取社会合规导航知识,并将其蒸馏到轻量级Transformer模型中以实现实时机器人导航的新方法。与传统依赖专家示范或人工标注数据集的方法不同,Vi-LAD通过利用预训练视觉动作模型的主干网络,在中间层表示(即注意力图)层面进行知识蒸馏与微调。这些注意力图能突出场景中的关键导航区域,为社会感知运动规划提供隐式指导。Vi-LAD通过融合从预训练视觉动作模型提取的中间注意力图与大型VLM构建的类注意力语义图,对基于Transformer的模型进行微调。为此,我们提出新型注意力级蒸馏损失函数,融合双源知识生成具有增强社会感知能力的强化注意力图。这些优化后的注意力图随后被用作社会感知模型预测控制器(MPC)**中的可通行性代价地图进行导航。我们在Husky轮式机器人上的真实实验验证了该方法,相较最先进(SOTA)导航方法取得显著提升,成功率最高提升14.2%−50%,彰显了Vi-LAD在实现社会合规且高效机器人导航方面的有效性。
算法框架与部分实验
- 算法框架
我们通过提取VANP[13]和大型视觉语言模型(VLM)的注意力图(而非端到端蒸馏或微调)来提炼社会导航知识。这些从图像编码器中间层提取的注意力图突出社会合规导航的关键区域。Vi-LAD采用结构相似性指数损失(SSIL),有效蒸馏VANP中间注意力层和大型VLM预测注意力图的信息,确保导航感知对齐增强。

System architecture of Vi-LAD.
- 部分实验结果

需考虑行人运动方向的复杂社交导航场景中的机器人轨迹。本方法基于蒸馏注意力图识别环境中智能体的动态运动与导航意图,从而规划出更符合社会规范且不干扰其他智能体的行进路线。例如场景1中DWA和CoNVOI未能预判运动趋势,场景2中VANP和DWA同样存在此缺陷。

本表呈现了10次试验中各种导航方法的量化结果。为评估性能,我们采用四项导航指标,这些指标按成功与失败试验(无论是否到达目标点)的平均值计算。
总结
我们提出Vi-LAD,一种新颖的视觉语言注意力蒸馏方法,通过将大型视觉语言模型(VLMs)的知识蒸馏到轻量级基于transformer的模型中,实现符合社会规范且实时的机器人导航。借助注意力图级别的蒸馏,Vi-LAD有效整合了预训练视觉动作模型和VLM的社会导航推理能力,确保高效自适应的运动规划。在Husky机器人上的实际实验表明,我们的方法相较前沿技术(SOTA)有显著提升,成功率更高且轨迹更接近人类遥控操作。然而,虽然我们的注意力引导MPC规划器增强了社会合规性,但在高度拥挤场景可能需要进一步调参。未来工作将探索融合深度和激光雷达等多模态信息的预训练模型以增强空间感知与鲁棒性,研究实时优化的在线适应策略,并扩展至复杂环境中的长程导航。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

463

被折叠的 条评论
为什么被折叠?



