
VLN
文章平均质量分 89
具身智能、视觉语言导航、目标导航等领域的前沿分享、技术梳理与经典论文解读。
视觉语言导航
Vision and language navigation!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
新疆大学具身导航新范式!DOPE:基于双重对象感知增强网络的视觉语言导航
DOPE通过增强语言理解和视觉感知能力,在VLN任务中取得了优于现有方法的性能。原创 2025-06-12 19:30:10 · 555 阅读 · 0 评论 -
中山大学具身导航“定位优先”策略!Loc4Plan:基于“先定位后规划”策略的户外视觉语言导航
Loc4Plan框架通过在规划决策动作之前先对智能体的空间位置进行定位,显著提高了户外VLN任务的性能。原创 2025-06-11 13:10:46 · 668 阅读 · 0 评论 -
美团具身导航多任务协作与高效路径探索!P3Nav:融合感知、规划与预测的具身导航统一框架
P3Nav框架通过整合感知、规划和预测能力,并采用多任务协作和自适应3D感知历史采样策略,在模拟环境中的语言引导视觉导航任务上取得了显著成果!原创 2025-06-11 13:08:11 · 436 阅读 · 0 评论 -
复旦大学视觉语言导航研究重磅调研(附下载链接)!
复旦大学视觉语言导航研究重磅调研!原创 2025-06-05 23:16:30 · 340 阅读 · 0 评论 -
港科大动态场景下的具身导航最新进展!DualMap:在线开放词汇语义建图助力智能体自然语言导航
DualMap是一个在线开放词汇语义建图系统,通过结合混合分割前端和内部对象检查,实现了高效的建图,无需三维合并。原创 2025-06-05 23:04:02 · 698 阅读 · 0 评论 -
西交交互增强与细节引导的具身导航!OIKG:基于观察图交互与关键细节融合框架下的视觉语言导航
OIKG 通过观察图交互和关键细节引导模块,有效解决了现有方法在视觉与语言导航中的不足!原创 2025-05-22 16:13:27 · 684 阅读 · 0 评论 -
中科院无人机导航物流配送的智能变革!LogisticsVLN:基于无人机视觉语言导航的低空终端配送系统
论文提出了LogisticsVLN系统,这是一个可扩展的基于无人机的终端配送系统,利用基础模型的力量,无需针对特定任务的训练或预先构建的地图。构建的VLD数据集涵盖了CARLA模拟器中的多样化建筑类型、配送目标和指令风格,为评估该领域提供了有力支持。原创 2025-05-12 18:38:44 · 1154 阅读 · 0 评论 -
AAAI-2025 | 中科院无人机导航新突破!FELA:基于细粒度对齐的无人机视觉对话导航
论文通过构建FG-AVDN数据集和提出FELA方法,显式地学习实体与地标之间的对齐,实验结果证明了该方法的有效性!原创 2025-05-12 18:36:44 · 1136 阅读 · 0 评论 -
基于对话交互的具身导航!UNMuTe:智能导航中的对话式交互与文本生成探索
本文提出的 UNMuTe 模型通过结合对话模型和导航模型,使智能体能够在导航过程中与 oracle 进行自然语言交互,生成有助于导航的问题和答案,从而提高了导航效率和成功率。在 CVDN 和 NDH 数据集上的实验结果证明了该方法的有效性!原创 2025-05-10 11:41:23 · 785 阅读 · 0 评论 -
中山大学破解视觉语言导航数据稀缺困局!RAM:以基础模型驱动,开辟视觉语言导航数据增强新路径
RAM范式通过巧妙地利用多种基础模型进行观察-指令改写,并结合混合-聚焦训练策略和随机观察裁剪方案,在多个流行的VLN基准测试中展现出令人印象深刻的泛化能力!原创 2025-04-27 20:33:12 · 610 阅读 · 0 评论 -
国防科大&清华城市空间无人机导航推理!GeoNav:赋予多模态大模型地理空间推理能力,实现语言指令导向的空中目标导航
GeoNav 通过模拟人类处理复杂规划问题的从粗到细的思维方式,为语言目标空中导航任务提供了一个有效的解决方案。原创 2025-04-21 19:05:53 · 936 阅读 · 0 评论 -
中科院数据生成赋能具身导航!WCGEN:基于世界一致性数据生成的视觉语言导航
本文提出的WCGEN框架通过两阶段生成策略,成功生成了多样化且世界一致的VLN数据,显著提升了智能体在新环境中的泛化能力。原创 2025-04-21 19:02:00 · 677 阅读 · 0 评论 -
无需训练的具身导航探索!TRAVEL:零样本视觉语言导航中的检索与对齐
提出了基于模块化方法的Vision-Language Navigation(VLN)任务解决方案,该方法在零样本设置下利用最先进的大型语言模型(LLMs)和视觉语言模型(VLMs),将问题分解为四个子模块,通过提取导航指令中的地标和访问顺序,检索最后地标的候选位置,生成路径假设,并计算与指令的对齐分数,最终评估路径保真度。原创 2025-04-19 20:42:15 · 1049 阅读 · 0 评论 -
3D语义地图中的全局路径规划!iPPD:基于3D语义地图的指令引导路径规划视觉语言导航
引入高分辨率3D语义地图:提出使用高分辨率的3D语义地图作为环境表示,相比传统的2D地图或拓扑地图,能够保留更多环境信息,为导航提供更丰富的语义和空间上下文。提出模块化导航框架(iPPD):设计了一种模块化的导航方法,包含路径提议和路径评分两个阶段。通过指令约束的路径提议算法生成候选路径,并利用基于Transformer的评分模型选择最佳路径,有效利用全局信息,避免了局部决策的误差累积。原创 2025-04-16 22:48:50 · 727 阅读 · 0 评论 -
同济大学轻量化低成本具身导航!COSMO:基于选择性记忆组合的低开销视觉语言导航
本文提出的COSMO通过结合两种定制的VLN选择性状态空间模块(RSS和CS3),实现了低成本的VLN。实验结果表明,COSMO在处理长指令时表现出显著的导航性能提升,同时显著降低了计算成本。COSMO展示了在保持竞争力的导航性能的同时,显著减少计算成本的能力。原创 2025-04-15 20:28:42 · 775 阅读 · 0 评论 -
IJCV-2025 | 深圳大学记忆增强的具身导航!ESceme:基于情景记忆的视觉语言导航
本文提出了第一个具有情景记忆的VLN机制(ESceme),并通过候选增强实现了一个简单而有效的版本。实验结果表明,ESceme在短视距、长视距和视觉对话导航任务中均表现出色,超越了现有的最先进方法,并在CVDN排行榜上获得了第一名。该方法在保证效率的同时显著提高了导航的准确性,为未来的VLN和相关领域的情景记忆建模提供了新的思路。原创 2025-04-15 20:22:42 · 1027 阅读 · 0 评论 -
香港大学融合垂直与水平动作的无人机导航新框架!基于网格的视图选择和地图构建的空中视觉语言导航
本文提出了基于网格视图选择和地图构建的方法,用于空中视觉语言导航。网格视图选择将连续环境中的空中VLN转化为离散环境中的视图选择任务,地图构建进一步融合了导航路径上的观测特征,提供了周围环境的信息。广泛的实验结果表明,基于网格的视图选择是一种有效的框架,能够将传统的VLN方法适应于空中VLN,BEV网格图使智能体能够利用环境上下文以获得更好的性能。原创 2025-04-09 21:28:43 · 1246 阅读 · 0 评论 -
华东师范地面机器人融合空中无人机视角的具身导航!KiteRunner:语言驱动的户外环境合作式局部-全局导航策略
论文提出了结合视觉-语言处理、基于无人机的全局地图规划和扩散模型驱动的局部轨迹优化自主导航方法,实现了在结构和无结构环境中的高效和鲁棒导航。该方法在关键指标上显著优于基线方法,特别是在动态和不可预测的场景中。其鲁棒性源于全局规划的长距离目标导向导航和局部优化的实时响应的协同结合。未来工作将集中在增强实时适应性,特别是通过无人机-地面协作,以提高在大规模复杂环境中的情境感知和可扩展性。原创 2025-04-06 11:14:15 · 764 阅读 · 0 评论 -
阿德莱德大学连续环境具身导航最新成果!SmartWay:基于航点预测增强与回溯的零样本视觉语言导航
论文提出了一种零样本VLN-CE框架,通过增强的航点预测模块和基于MLLM的导航模块,显著提高了导航性能和鲁棒性。 实验结果表明,该方法在模拟和真实环境中均达到了最先进的性能,缩小了与全监督方法的性能差距。未来的工作将扩展回溯机制以支持多步撤销操作,并通过引入视觉语言分割和场景感知提示来增强语义理解,以进一步纠正更深层次的导航错误并提高导航性能。原创 2025-04-02 19:28:04 · 843 阅读 · 0 评论 -
想象力赋能导航决策!视觉想象力能否提升视觉语言导航能力?
论文展示了视觉想象模块在训练卓越的视觉语言导航智能体方面的附加作用。通过生成描述子指令地标的视觉想象模块,并将其集成到现有的VLN智能体中,观察到性能提升了约1个成功率点和0.5个SPL点。尽管生成和编码想象模块增加了运行VLN智能体的计算成本,但这种方法为未来的研究提供了新的方向,如探索想象在模拟到现实(Sim2Real)差距中的作用以及通过图像推理解锁VLN世界模型的性能。原创 2025-04-01 20:58:01 · 573 阅读 · 0 评论 -
未来环境生成助力具身导航!PanoGen++:基于领域自适应全景图像生成的视觉语言导航
论文提出了PanoGen++,通过结合预训练生成模型和领域特定的微调,生成适用于VLN任务的全景环境。实验结果表明,PanoGen++在多个VLN数据集上均取得了显著的性能提升,验证了其有效性和鲁棒性。尽管如此,PanoGen++生成的环境多样性仍受限于训练数据的质量和范围,未来研究可以进一步探索更多样化的数据集和先进的文本到图像生成模型。原创 2025-03-30 21:01:20 · 498 阅读 · 0 评论 -
你的VLM竟是潜在的世界模型?颠覆传统!WMNav突破室内导航瓶颈
我们提出了 WMNav,它通过在世界模型框架中利用视觉语言模型 (VLMs),为未知环境中的目标导航找到了一条新颖的技术路径,并显著提升了零样本目标导航 (ZSON) 的性能。我们的方法通过采用在线Curiosity Value Map来定量预测目标存在的可能性,解决了来回冗余移动造成的低效问题。子任务分解模块为基于Prompt的策略模块优化提供了更密集的奖励。此外,两阶段动作提议器使得导航更具目的性,探索更高效。原创 2025-03-28 22:54:53 · 929 阅读 · 0 评论 -
ICASSP-2025 | 国防科大具身导航高效记忆与推理!GAR:基于图感知推理与双向选择的视觉语言导航
本文提出了一种新的图感知推理框架模型,用于视觉语言导航。通过集成图网络和状态空间模型,GAR模型有效地捕捉了长序列依赖关系和自适应的上下文特征信息传播与遗忘。设计的双向选择性状态空间模型能够有效保留视觉文本中的全局上下文信息,提高了模型的导航性能。与基于Transformer的方法相比,GAR模型具有更快的计算效率和更高的内存利用率。原创 2025-03-27 19:01:11 · 877 阅读 · 0 评论 -
ICRA-2025 | 从人类视角到机器人视角的具身导航!连续环境中基于地面视角的视觉语言导航
论文提出了一种新的地面视角导航(GVNav)方法,解决了四足机器人在连续环境中进行视觉语言导航时的视角不匹配问题。通过扩展waypoint预测网络的训练数据和引入自适应信息采集模块,显著提高了模型在模拟环境和实际环境中的性能。实验结果表明,弥合人类和机器人视角之间的视觉差距对于提高VLN模型的泛化和性能至关重要。原创 2025-03-27 18:23:22 · 1063 阅读 · 0 评论 -
同济大学多层次具身导航策略!FlexVLN:灵活适应多样化任务的视觉语言导航
本文提出的FlexVLN通过引入一种新颖的层次化导航系统,实现了跨多种VLN数据集的泛化。该系统无缝集成了LLM规划器的推理和泛化能力与指令跟随者的基本导航能力。通过可行性验证和多模型集成机制,FlexVLN有效缓解了LLM规划器生成的不可行指导,提高了指令跟随者的执行准确性。实验结果表明,FlexVLN在REVERIE、SOON和CVDN-target数据集上均表现出显著的泛化能力。原创 2025-03-25 19:36:50 · 842 阅读 · 0 评论 -
具身导航赋能智能制造!大模型驱动的人机协作视觉语言导航
论文提出了基于LLM的视觉和语言协作机器人导航框架,用于智能制造中的工具取回。通过重建和注释真实的三维协作机器人场景,利用LLM理解人类自然语言指令,并生成Python代码进行路径规划,最终在仿真环境中验证了该框架的有效性。该方法不仅提高了操作员的作业效率和安全性,还推动了智能制造中人机协作的发展。未来的工作将探索自动场景分割算法,以提高系统的定量评估指标。原创 2025-03-21 12:52:26 · 1105 阅读 · 0 评论 -
TPAMI-2025 | 中山大学具身导航参数高效训练!NavCoT:通过解耦推理提升基于大模型的视觉语言导航
论文提出了NavCoT,通过参数高效的领域内训练使LLMs能够进行自我引导的导航推理,从而显著提高了动作决策的准确性和可解释性。实验结果表明,NavCoT在多个VLN数据集上优于高成本LLMs和直接动作预测变体。未来的研究方向包括将NavCoT引入更强大的大视觉语言模型,以进一步提高导航性能。原创 2025-03-19 12:29:32 · 789 阅读 · 0 评论 -
合工大结合文本与深度信息的具身导航!智能体旅途不止RGB:融合语义-空间表示的视觉语言导航
本文提出的SUSA架构通过引入文本语义和深度信息,提供了超越RGB图像的补充环境表示。文本感知语义理解模块通过静态和动态匹配选择最相关的视图,基于深度的空间感知模块通过深度探索图增强空间感知能力。实验结果表明,SUSA在三个VLN基准数据集上的表现均优于现有方法,展示了其在导航性能和对象识别准确性方面的显著提升。未来的工作将进一步丰富有益的环境表示,以推进特定的VLN任务。原创 2025-03-18 13:38:10 · 752 阅读 · 0 评论 -
CVPR-2025 | 长程视觉语言导航平台与数据集:迈向复杂环境中的智能机器人
近日,中山大学HCP-Lab团队提出复杂长程视觉语言导航(LH-VLN)任务,并配套开发了自动化数据生成平台NavGen、复杂长程导航基准测试LHPR-VLN,以及创新模型MGDM,为智能机器人在动态复杂环境中的自主导航开辟了新路径。目前该论文已被CVPR2025接收。原创 2025-03-15 19:59:39 · 1110 阅读 · 0 评论 -
RAG助力机器人场景理解与具身操作!EmbodiedRAG:基于动态三维场景图检索的机器人任务规划
论文开发了EmbodiedRAG框架,用于解决机器人在动态环境中进行任务规划的问题。该方法不需要预先构建3DSG,避免了将整个3DSG提供给基于LLM的规划器,从而加快了规划生成速度并提高了成功率。关键的反馈机制有助于在部署期间进行规划恢复。未来的研究方向包括扩展到多模态检索技术和更快的结构化查询反馈。原创 2025-03-10 12:32:58 · 1355 阅读 · 0 评论 -
认知启发的具身导航概念分类!NAVCON:基于认知和语言对齐的视觉语言导航语料库
论文介绍了NAVCON,一个大规模标注的视觉语言导航数据集,包含了四个核心导航概念的标注和视频帧的对齐。通过人类评估和少样本学习的实验,验证了标注的质量和有用性。NAVCON的发布将为未来的VLN研究提供重要的资源,使结果更具可解释性,并简化语言指令到视觉输入的对齐过程。原创 2025-03-09 11:26:52 · 1026 阅读 · 0 评论 -
大模型赋能视觉语言导航最新综述!基础模型时代下的VLN:现状与未来
论文总结了基础模型在视觉和语言导航任务中的应用,并提出了未来研究的方向。基础模型在多模态理解、推理和跨域泛化方面展示了卓越的性能,特别是在VLN任务中。尽管存在一些局限性,如数据和任务的限制、动态环境的复杂性以及从模拟到真实机器人的部署挑战,基础模型仍然为VLN研究提供了新的机会和解决方案。未来的研究应继续探索改进基准测试、处理动态环境和从模拟到真实机器人的部署等方向。原创 2025-03-07 12:36:29 · 1105 阅读 · 0 评论 -
具身导航如何沿途标记!MapNav: 基于语义地图标注记忆表示的视觉语言导航
论文提出了MapNav,基于标注语义地图(ASM)的端到端VLN模型,通过替换传统的历史帧,显著减少了存储和计算开销,同时提高了导航性能。实验结果表明,MapNav在模拟和真实世界环境中均达到了SOTA性能,验证了ASM在VLN任务中的有效性。未来的研究方向包括探索更先进的语义理解方法和增强现实世界泛化能力。原创 2025-03-06 12:37:15 · 1166 阅读 · 0 评论 -
融合全局与局部记忆的具身导航框架!MEM2EGO:全局到自我中心的记忆赋能VLM长距离具身导航
论文将任务相关的全局内存信息与第一人称视角信息相结合,克服了现有多模态导航框架由于局部可观测性导致的次优问题。该方法能够同时激活和利用VLM的复杂空间理解、推理和常识推理能力,显著提高了在复杂空间场景中的导航决策能力和效率。理论上,增强的空间认知能力可以减少所需的行进距离和动作数量,从而提高任务完成成功率和整体导航效率。原创 2025-03-03 13:01:47 · 899 阅读 · 0 评论 -
RAG助力具身导航指令扩展!NavRAG:大模型检索增强具身导航中的指令生成
论文提出了NavRAG,一种利用检索增强LLM生成用户需求导航指令的方法。通过构建场景描述树和模拟用户角色,NavRAG有效提高了生成指令的质量和多样性。实验结果表明,NavRAG训练的模型在多个VLN基准上表现出色,验证了该方法的有效性。尽管NavRAG在生成指令的正确性评估上存在一定的局限性,但其在大规模生成导航数据方面的潜力得到了充分验证。原创 2025-03-02 11:20:16 · 883 阅读 · 0 评论 -
上海AI实验室无人机视觉语言导航最新基准!OpenFly:空中VLN的全能工具链与大规模测试基准
论文提出了OpenFly平台,用于大规模数据收集和室外空中VLN任务。OpenFly集成了多种渲染引擎,生成了多样且高质量的数据。提出的OpenFly-Agent模型在多个评估指标上表现优异,验证了其有效性,并为未来的空中导航研究提供了一个全面的基准。原创 2025-02-28 12:58:51 · 887 阅读 · 0 评论 -
具身导航可解释记忆新范式!Embodied-RAG:具身智能体的非参数化记忆系统
论文提出了Embodied-RAG框架,能够在大规模具身体验中自动构建分层空间记忆,并在不同抽象级别的查询上进行导航和解释。Embodied-RAG在显式、隐式和全局查询上均优于现有基线方法,并且在图构建过程中表现出显著的效率优势。该研究为将大型非参数具身记忆集成到基础模型中提供了新的思路,展示了其在导航和语言生成任务中的潜力。未来的工作可以进一步扩展到动态环境和操作任务。原创 2025-02-25 12:31:58 · 815 阅读 · 0 评论 -
HRI-2025 | 俄罗斯无人机自主导航新突破!UAV-VLA:基于视觉-语言-动作的大规模无人机任务生成系统
论文提出了一种新的全球规模的无人机任务生成方法,增强了任务规划的灵活性和准确性。引入了UAV-VLPA-nano-30基准测试,为全球规模的路径规划技术提供了标准化框架。原创 2025-02-24 11:04:14 · 1812 阅读 · 0 评论 -
CVPR-2024 | 具身推理有果未必有因!GOAT:基于因果学习的视觉语言导航
论文提出了GOAT,通过因果学习解决VLN中数据集偏差问题。通过后门和前门调整因果学习机制,GOAT能够有效地处理可观测和不可观测的混淆变量,从而提高模型的泛化能力。实验结果表明,GOAT在多个数据集上表现出色,显著提升了导航性能。原创 2025-02-23 11:08:13 · 671 阅读 · 0 评论 -
ICLR-2025 | 具身导航场景自适应新范式!GSA-VLN:适应通用场景的视觉语言导航
论文提出了GSA-VLN任务,旨在解决智能体在持续环境中的适应问题。通过引入GSA-R2R数据集和GR-DUET方法,显著提高了智能体在多样环境和指令下的适应能力。未来的工作将探索更多的无监督学习方法,以进一步增强智能体在GSA-R2R中的性能。原创 2025-02-20 15:09:43 · 754 阅读 · 0 评论