视觉语言导航-优快云博客

原创阿德莱德大学连续环境具身导航最新成果！SmartWay：基于航点预测增强与回溯的零样本视觉语言导航

论文提出了一种零样本VLN-CE框架，通过增强的航点预测模块和基于MLLM的导航模块，显著提高了导航性能和鲁棒性。实验结果表明，该方法在模拟和真实环境中均达到了最先进的性能，缩小了与全监督方法的性能差距。未来的工作将扩展回溯机制以支持多步撤销操作，并通过引入视觉语言分割和场景感知提示来增强语义理解，以进一步纠正更深层次的导航错误并提高导航性能。

2025-04-02 19:28:04 647

原创想象力赋能导航决策！视觉想象力能否提升视觉语言导航能力？

论文展示了视觉想象模块在训练卓越的视觉语言导航智能体方面的附加作用。通过生成描述子指令地标的视觉想象模块，并将其集成到现有的VLN智能体中，观察到性能提升了约1个成功率点和0.5个SPL点。尽管生成和编码想象模块增加了运行VLN智能体的计算成本，但这种方法为未来的研究提供了新的方向，如探索想象在模拟到现实（Sim2Real）差距中的作用以及通过图像推理解锁VLN世界模型的性能。

2025-04-01 20:58:01 507

原创香港理工视觉语言模型赋能智能制造最新综述！基于视觉语言模型的人机协作在智能制造中的应用

论文系统地回顾了VLMs在智能制造中人机协作中的最新进展和应用，展示了其在任务规划、导航、操作和技能转移中的潜力。尽管VLMs在多个应用场景中表现出显著的优势，但仍面临实时处理、计算需求和动态环境处理等挑战。未来的研究方向包括提高VLMs的可扩展性、开发更自然和直观的人机交互机制，以及减少VLMs的数据和计算需求，以便在工业环境中大规模部署。通过解决这些挑战，VLMs有望在智能制造中发挥更大的作用，推动制造业的智能化和自动化。

2025-04-01 20:56:18 807

原创未来环境生成助力具身导航！PanoGen++：基于领域自适应全景图像生成的视觉语言导航

论文提出了PanoGen++，通过结合预训练生成模型和领域特定的微调，生成适用于VLN任务的全景环境。实验结果表明，PanoGen++在多个VLN数据集上均取得了显著的性能提升，验证了其有效性和鲁棒性。尽管如此，PanoGen++生成的环境多样性仍受限于训练数据的质量和范围，未来研究可以进一步探索更多样化的数据集和先进的文本到图像生成模型。

2025-03-30 21:01:20 372

原创 CVPR-2025 | 南洋理工基于图表示的具身导航统一框架！UniGoal：通用零样本目标导航方法

论文提出了UniGoal，一种无需训练或微调的通用零样本目标导向导航框架。通过统一的图表示和多阶段探索策略，UniGoal能够在不同任务之间进行有效的推理和决策。实验结果表明，UniGoal在三个广泛使用的数据集上均取得了最先进的零样本性能，甚至在某些情况下超过了为特定任务设计的零样本方法和需要训练或微调的通用方法。UniGoal在真实世界机器人平台上的部署也展示了其强大的泛化能力和应用价值。

2025-03-29 20:35:03 790

原创你的VLM竟是潜在的世界模型？颠覆传统！WMNav突破室内导航瓶颈

我们提出了 WMNav，它通过在世界模型框架中利用视觉语言模型 (VLMs)，为未知环境中的目标导航找到了一条新颖的技术路径，并显著提升了零样本目标导航 (ZSON) 的性能。我们的方法通过采用在线Curiosity Value Map来定量预测目标存在的可能性，解决了来回冗余移动造成的低效问题。子任务分解模块为基于Prompt的策略模块优化提供了更密集的奖励。此外，两阶段动作提议器使得导航更具目的性，探索更高效。

2025-03-28 22:54:53 861

原创 ICASSP-2025 | 国防科大具身导航高效记忆与推理！GAR：基于图感知推理与双向选择的视觉语言导航

本文提出了一种新的图感知推理框架模型，用于视觉语言导航。通过集成图网络和状态空间模型，GAR模型有效地捕捉了长序列依赖关系和自适应的上下文特征信息传播与遗忘。设计的双向选择性状态空间模型能够有效保留视觉文本中的全局上下文信息，提高了模型的导航性能。与基于Transformer的方法相比，GAR模型具有更快的计算效率和更高的内存利用率。

2025-03-27 19:01:11 746

原创 ICRA-2025 | 从人类视角到机器人视角的具身导航！连续环境中基于地面视角的视觉语言导航

论文提出了一种新的地面视角导航（GVNav）方法，解决了四足机器人在连续环境中进行视觉语言导航时的视角不匹配问题。通过扩展waypoint预测网络的训练数据和引入自适应信息采集模块，显著提高了模型在模拟环境和实际环境中的性能。实验结果表明，弥合人类和机器人视角之间的视觉差距对于提高VLN模型的泛化和性能至关重要。

2025-03-27 18:23:22 860

原创同济大学多层次具身导航策略！FlexVLN：灵活适应多样化任务的视觉语言导航

本文提出的FlexVLN通过引入一种新颖的层次化导航系统，实现了跨多种VLN数据集的泛化。该系统无缝集成了LLM规划器的推理和泛化能力与指令跟随者的基本导航能力。通过可行性验证和多模型集成机制，FlexVLN有效缓解了LLM规划器生成的不可行指导，提高了指令跟随者的执行准确性。实验结果表明，FlexVLN在REVERIE、SOON和CVDN-target数据集上均表现出显著的泛化能力。

2025-03-25 19:36:50 750

原创港中文迈向安全的具身AI！EARBench：基础模型在具身AI任务规划中的物理风险评估

论文通过EARBench框架和EARDataset，首次系统地评估了EAI智能体在物理环境中的任务规划能力和风险意识。结果表明，当前基础模型在复杂场景下的风险识别能力不足，且简单的模型规模扩大并不能显著改善风险意识。提出的两种风险缓解策略在一定程度上提高了模型的安全性，但仍需进一步研究和开发更有效的安全增强方法。研究强调了在EAI发展中优先考虑安全性的重要性，并为未来的研究方向提供了有价值的见解。

2025-03-24 21:22:12 840

原创清华大学大模型智能体自我认知与决策流程！自知、反思、规划：城市环境目标导航中的大模型智能体新范式

论文提出了用于目标导向城市导航的智能体工作流。该工作流包括微调的LLaVA模型进行空间感知、记忆模块用于综合和反思感知结果及检索的记忆，以及规划模块用于导航路线规划。论文展示了LLMs在城市导航任务中的应用潜力，并通过反思和规划模块显著提高了导航性能。

2025-03-23 20:34:06 1046

原创清华大学城市空间具身推理最新基准！Open3DVQA：全方位评估多模态模型在开放空间的空间推理能力

论文提出了Open3DVQA，一个用于评估多模态大模型在开放空间环境中综合空间推理能力的基准。评估结果表明，当前主流的多模态大模型在定量任务中存在局限性，特别是在定量关系推理和定量目标属性推理方面。通过微调多模态大模型，可以显著增强其空间推理能力。实验结果验证了所提出的训练数据集在提高视觉语言模型空间理解能力方面的有效性。

2025-03-22 12:53:06 564

原创具身导航赋能智能制造！大模型驱动的人机协作视觉语言导航

论文提出了基于LLM的视觉和语言协作机器人导航框架，用于智能制造中的工具取回。通过重建和注释真实的三维协作机器人场景，利用LLM理解人类自然语言指令，并生成Python代码进行路径规划，最终在仿真环境中验证了该框架的有效性。该方法不仅提高了操作员的作业效率和安全性，还推动了智能制造中人机协作的发展。未来的工作将探索自动场景分割算法，以提高系统的定量评估指标。

2025-03-21 12:52:26 893

原创华南理工大学AI进化之道全面综述！大模型智能体的终身学习技术路线

论文系统地总结了将终身学习能力整合到LLMs智能体中的方法和策略。通过感知、记忆和行动模块的协同作用，LLMs智能体能够在动态环境中不断适应和学习。论文的贡献包括提供了终身学习LLMs智能体的基础概述、深入分析了关键组件、讨论了实际应用和评估指标，并指出了未来的研究方向。该研究为开发具有终身学习能力的LLMs智能体提供了重要的理论基础和实践指导。

2025-03-20 12:57:15 587

原创 TPAMI-2025 | 中山大学具身导航参数高效训练！NavCoT：通过解耦推理提升基于大模型的视觉语言导航

论文提出了NavCoT，通过参数高效的领域内训练使LLMs能够进行自我引导的导航推理，从而显著提高了动作决策的准确性和可解释性。实验结果表明，NavCoT在多个VLN数据集上优于高成本LLMs和直接动作预测变体。未来的研究方向包括将NavCoT引入更强大的大视觉语言模型，以进一步提高导航性能。

2025-03-19 12:29:32 640

原创合工大结合文本与深度信息的具身导航！智能体旅途不止RGB：融合语义-空间表示的视觉语言导航

本文提出的SUSA架构通过引入文本语义和深度信息，提供了超越RGB图像的补充环境表示。文本感知语义理解模块通过静态和动态匹配选择最相关的视图，基于深度的空间感知模块通过深度探索图增强空间感知能力。实验结果表明，SUSA在三个VLN基准数据集上的表现均优于现有方法，展示了其在导航性能和对象识别准确性方面的显著提升。未来的工作将进一步丰富有益的环境表示，以推进特定的VLN任务。

2025-03-18 13:38:10 619

原创浙大具身AI的安全威胁与对策！面向鲁棒与安全的具身AI：漏洞与攻击综述

论文全面概述了具身AI系统面临的漏洞和攻击向量，特别是集成LVLMs和LLMs所面临的独特挑战。通过将漏洞分类为外生漏洞、内生漏洞和跨维度漏洞，系统分析了对抗性攻击范式，研究了针对LLMs和LVLMs的攻击向量，评估了感知、决策和任务规划中算法的鲁棒性挑战，并提出了增强具身AI系统安全和可靠性的针对性策略。该论文提供了一个综合框架，用于理解具身AI系统中漏洞与安全性之间的相互作用。

2025-03-17 16:20:18 956

原创双层BEV启发式具身导航路径规划新范式！Dual-BEV Nav：非结构化户外环境中的机器人导航

论文提出了一种结合局部和全局BEV规划的方法，从overhead地图中提取的全局BEV提示和实时局部BEV表示。增强了机器人在复杂户外环境中识别可通行性的能力，提高了路径规划的距离。未来的工作将计划结合无人机获取实时俯视视图，以进一步提升系统的鲁棒性和实时性能。

2025-03-16 15:59:53 821

原创 CVPR-2025 | 长程视觉语言导航平台与数据集：迈向复杂环境中的智能机器人

近日，中山大学HCP-Lab团队提出复杂长程视觉语言导航（LH-VLN）任务，并配套开发了自动化数据生成平台NavGen、复杂长程导航基准测试LHPR-VLN，以及创新模型MGDM，为智能机器人在动态复杂环境中的自主导航开辟了新路径。目前该论文已被CVPR2025接收。

2025-03-15 19:59:39 930

原创中科院自动化所人形机器人研究进展：全面综述与展望

论文全面综述了人形机器人的研究现状、进展和未来前景，强调了生物机制、结构设计、材料应用、驱动和控制方法以及能量利用等方面的挑战。通过集成仿生学、脑启发智能、力学和控制技术，人形机器人的未来发展前景广阔。论文为研究人员提供了宝贵的资源，推动了人形机器人在各个领域的持续发展和潜力挖掘。

2025-03-14 12:44:27 1640

原创清华大学城市空间具身连续视觉感知问答基准测试！UrbanVideo-Bench：首个针对多模态大模型的运动认知评估数据集

论文提出了UrbanVideo-Bench，首个针对城市开放空间中运动具身认知的基准测试。实验结果表明，当前最好的Video-LLMs在城市开放空间中的具身认知能力仍有很大提升空间。分析发现，因果推理与其他任务高度相关，微调大模型可以提高其在真实世界具身视频任务上的性能。

2025-03-13 12:40:10 948

原创智能体在真实世界中的感知与行动融合最新综述！探索多模态具身大模型：发展，数据集与未来方向

论文系统地回顾了具身多模态大模型的发展，分析了基础大模型的技术进步及其在具身任务中的应用。通过分析多个数据集的影响，识别了高质量数据在模型性能提升中的重要性。尽管EMLMs在多个领域取得了显著进展，但仍需解决跨模态对齐、计算资源效率和泛化能力等挑战。未来的研究应关注跨模态预训练和自监督学习，以实现更高效、更灵活的具身智能系统。本文的研究为EMLMs的未来发展提供了有价值的参考和启示。

2025-03-12 12:50:26 1083

原创东大视觉链推理新范式！MageBench：桥梁多模态大模型与智能体的纽带

论文介绍了MageBench，一个以推理能力为导向的多模态智能体基准测试。结果表明，现有的LMMs在视觉思维链、跨模态长上下文理解、视觉想象和空间规划等方面存在显著不足。MageBench为未来的研究提供了有价值的见解和优化方向，并计划在未来增加更多环境以进一步探索智能体级别的技术细节。

2025-03-11 12:53:58 795

原创 RAG助力机器人场景理解与具身操作！EmbodiedRAG：基于动态三维场景图检索的机器人任务规划

论文开发了EmbodiedRAG框架，用于解决机器人在动态环境中进行任务规划的问题。该方法不需要预先构建3DSG，避免了将整个3DSG提供给基于LLM的规划器，从而加快了规划生成速度并提高了成功率。关键的反馈机制有助于在部署期间进行规划恢复。未来的研究方向包括扩展到多模态检索技术和更快的结构化查询反馈。

2025-03-10 12:32:58 1259

原创认知启发的具身导航概念分类！NAVCON：基于认知和语言对齐的视觉语言导航语料库

论文介绍了NAVCON，一个大规模标注的视觉语言导航数据集，包含了四个核心导航概念的标注和视频帧的对齐。通过人类评估和少样本学习的实验，验证了标注的质量和有用性。NAVCON的发布将为未来的VLN研究提供重要的资源，使结果更具可解释性，并简化语言指令到视觉输入的对齐过程。

2025-03-09 11:26:52 970

原创第三届具身智能国际挑战赛！Autonomous Grand Challenge 2025

2025年度具身智能国际挑战赛旨在通过全球合作促进具身智能和自动驾驶领域的发展。挑战赛道覆盖人形机器人世界模型、端到端自动驾驶、机器人操作三大领域前沿话题，奖金池总额达 10 万美元。

2025-03-08 12:20:38 728

原创大模型赋能视觉语言导航最新综述！基础模型时代下的VLN：现状与未来

论文总结了基础模型在视觉和语言导航任务中的应用，并提出了未来研究的方向。基础模型在多模态理解、推理和跨域泛化方面展示了卓越的性能，特别是在VLN任务中。尽管存在一些局限性，如数据和任务的限制、动态环境的复杂性以及从模拟到真实机器人的部署挑战，基础模型仍然为VLN研究提供了新的机会和解决方案。未来的研究应继续探索改进基准测试、处理动态环境和从模拟到真实机器人的部署等方向。

2025-03-07 12:36:29 967

原创具身导航如何沿途标记！MapNav: 基于语义地图标注记忆表示的视觉语言导航

论文提出了MapNav，基于标注语义地图（ASM）的端到端VLN模型，通过替换传统的历史帧，显著减少了存储和计算开销，同时提高了导航性能。实验结果表明，MapNav在模拟和真实世界环境中均达到了SOTA性能，验证了ASM在VLN任务中的有效性。未来的研究方向包括探索更先进的语义理解方法和增强现实世界泛化能力。

2025-03-06 12:37:15 959

原创开放世界中具身AI的社会推理与规划！VIRTUAL COMMUNITY：基于生成模型的具身AI社交环境

论文介绍了Virtual Community，用于具身AI研究的生成性社交世界平台。通过结合大规模的真实地理空间数据和先进的生成模型，Virtual Community能够生成无限的场景和扎根的社交智能体社区。论文提出的路线规划和选举活动任务展示了该平台在开放世界和社会挑战中的潜力。

2025-03-05 13:08:52 559

原创报告分享 | 哈工大赛尔实验室——大模型时代的具身智能

本报告详细介绍了大模型时代的具身智能，探讨了智能机器人的发展历程、技术挑战和未来发展方向。

2025-03-04 14:01:37 254 1

原创解锁具身智能时空密码！LLaVA-ST：多模态大模型的细粒度时空理解

论文提出的LLaVA-ST是首个能够端到端处理细粒度时空多模态理解任务的MLLM。通过引入LAPE和STP模块，LLaVA-ST显著提高了模型在多个基准测试中的性能。实验结果表明，LLaVA-ST在处理时空交错任务时具有显著优势，并且在开放式视频问答和多选题视频问答任务中也表现出色。LLaVA-ST的提出为未来的MLLMs在细粒度多模态理解任务上的改进提供了重要的参考。

2025-03-04 13:11:14 601

原创融合全局与局部记忆的具身导航框架！MEM2EGO：全局到自我中心的记忆赋能VLM长距离具身导航

论文将任务相关的全局内存信息与第一人称视角信息相结合，克服了现有多模态导航框架由于局部可观测性导致的次优问题。该方法能够同时激活和利用VLM的复杂空间理解、推理和常识推理能力，显著提高了在复杂空间场景中的导航决策能力和效率。理论上，增强的空间认知能力可以减少所需的行进距离和动作数量，从而提高任务完成成功率和整体导航效率。

2025-03-03 13:01:47 770

原创 RAG助力具身导航指令扩展！NavRAG：大模型检索增强具身导航中的指令生成

论文提出了NavRAG，一种利用检索增强LLM生成用户需求导航指令的方法。通过构建场景描述树和模拟用户角色，NavRAG有效提高了生成指令的质量和多样性。实验结果表明，NavRAG训练的模型在多个VLN基准上表现出色，验证了该方法的有效性。尽管NavRAG在生成指令的正确性评估上存在一定的局限性，但其在大规模生成导航数据方面的潜力得到了充分验证。

2025-03-02 11:20:16 778

原创微软具身智能感知交互多面手！Magma：基于基础模型的多模态AI智能体

论文提出了Magma，第一个能够在数字和物理世界中理解和执行多模态输入的基础模型。通过引入SoM和ToM技术，Magma显著增强了时空智能，并在多个任务上取得了新的SOTA结果。该模型的训练数据集广泛且多样，涵盖了图像、视频和机器人领域的多种数据类型，确保了模型的泛化能力。总体而言，Magma为多模态AI智能体的发展提供了一个强大的基础模型。

2025-03-01 10:10:30 1106

原创上海AI实验室无人机视觉语言导航最新基准！OpenFly：空中VLN的全能工具链与大规模测试基准

论文提出了OpenFly平台，用于大规模数据收集和室外空中VLN任务。OpenFly集成了多种渲染引擎，生成了多样且高质量的数据。提出的OpenFly-Agent模型在多个评估指标上表现优异，验证了其有效性，并为未来的空中导航研究提供了一个全面的基准。

2025-02-28 12:58:51 729

原创城市复杂环境下具身大模型基准测试！UrBench：综合评估多模态大模型在多视图城市场景中的基准

论文提出了UrBench，一个用于评估多模态大模型在城市环境中表现的新基准。通过收集和预处理多视角图像数据，设计了多种方法生成高质量的问题样本，并进行了详细的评估和分析。结果表明，当前LLMs在城市环境中的表现仍有显著不足，特别是在跨视角理解和地理定位任务中。研究结果为进一步改进LLMs在城市场景中的应用提供了指导。

2025-02-27 12:28:19 774

原创清华大学具身智能最新万字综述！形态、行动、感知与学习的协同效应

论文总结了具身智能的发展，特别是具身人工智能（EAI）的研究。提出了统一的具身智能框架，强调了形态学、动作、感知和学习之间的协同作用。未来的研究可以从这些组件的内在联系中受益。

2025-02-26 10:58:32 637

原创报告分享 | 天津大学深度解读DeepSeek：原理与效应

天津大学自然语言处理实验室关于DeepSeek原理的深度解读！

2025-02-26 10:55:05 140

原创具身导航可解释记忆新范式！Embodied-RAG：具身智能体的非参数化记忆系统

论文提出了Embodied-RAG框架，能够在大规模具身体验中自动构建分层空间记忆，并在不同抽象级别的查询上进行导航和解释。Embodied-RAG在显式、隐式和全局查询上均优于现有基线方法，并且在图构建过程中表现出显著的效率优势。该研究为将大型非参数具身记忆集成到基础模型中提供了新的思路，展示了其在导航和语言生成任务中的潜力。未来的工作可以进一步扩展到动态环境和操作任务。

2025-02-25 12:31:58 719 1

原创 HRI-2025 | 俄罗斯无人机自主导航新突破！UAV-VLA：基于视觉-语言-动作的大规模无人机任务生成系统

论文提出了一种新的全球规模的无人机任务生成方法，增强了任务规划的灵活性和准确性。引入了UAV-VLPA-nano-30基准测试，为全球规模的路径规划技术提供了标准化框架。

2025-02-24 11:04:14 1415

空空如也

空空如也