泰上勒君-优快云博客

原创论文分享：【2024 CVPR】Lookahead Exploration with Neural Radiance Representation for VLN-CE

前瞻探索策略旨在通过准确预测候选位置的未来环境来有效评估智能体的下一步行动。一些现有研究尝试预测未来环境的 RGB 图像，但这种策略存在图像失真和高计算成本的问题。本文提出 **预训练的分层神经辐射表示模型（HNR）**，用于为未来环境生成多层次的语义特征，该方法相比逐像素的 RGB 重建更加稳健且高效。借助预测的未来环境表示，前瞻 VLN 模型能够构建可导航的未来路径树，并通过高效的并行评估选择最优路径。在 VLN-CE 数据集上的大量实验验证了该方法的有效性。

2025-04-12 22:50:32 528

原创论文分享：【2024 TPAMI】ETPNav: Evolving Topological Planning for Vision-Language Navigation in Continuous

这是一篇期刊文献，参考了DUET的思想在**连续环境**中进行视觉语言导航（VLN-CE）。整体思想和DUET很相似，ETPNav通过自组织预测的路径点(waypoint)在没有先验知识的情况下完成环境的在线拓扑映射，然后基于Transformer完成拓扑地图和指令的跨模态对齐并生成导航计划。然后通过避障控制器执行该计划，该控制器利用试探法和启发式算法防止导航被障碍物卡住。在R2R-CE和RxR-CE数据集上进行了测评。

2025-04-12 22:43:55 435

原创论文分享：【2024 NeurIPS】Trajectory Diffusion for ObjectGoal Navigation

本文提出了轨迹扩散（trajectory diffusion）的方法，以学习轨迹序列的分布，使导航规划更具时序一致性。采用去噪扩散概率模型（DDPM, Denoising Diffusion Probabilistic Model），结合自动收集的最优轨迹数据来训练该模型。训练后的轨迹扩散模型可以根据当前观察到的环境，生成一个时间上连贯的未来轨迹序列，引导智能体更好地进行导航。

2025-04-12 22:39:29 476

原创论文分享：【2024 CVPR】An Interactive Navigation Method with Effect-oriented Affordance

本文引入了一种**面向效果的可供性（affordance）地图**，以支持**长期**交互式导航，并将现有的基于地图的导航框架扩展到动态环境领域。训练了一组**可供性函数**，以预测可执行的交互方式以及移除障碍物所需的时间成本，从而为交互式模块化系统提供信息支持，以解决交互和长期规划问题。在 ProcTHOR 模拟器上做了实验。

2025-04-12 22:33:57 549

原创论文分享：【2025 AAAI】FloNa Floor Plan Guided Embodied Visual Navigation

作者将场景分为67个用于训练，50个用于测试，以评估模型在未见过的环境中的泛化能力。根据场景的大小，设置不同的导航片段数量，小场景每个150段，中等场景每个180段，大场景每个200段。目标点随机选择，包括已经走过轨迹的末端，以及轨迹后面一点的位置，以鼓励模型学习更通用的导航能力。它将视觉观察信息（智能体看到的图像）和环境的平面图信息融合在一起，使用一个扩散策略模型学习如何在拥挤的环境中导航，并且能够避免碰撞。的新的任务，即给定带有目标红点的平面图，代理通过RGB视觉观察导航到对应目标位置的任务。

2025-04-12 22:28:12 300

原创论文分享：【2025 ICLR】Efficient and Context-Aware Label Propagation for Zero-Few-Shot…

但是，在少样本标注样本的特征中，高方差通道可能反映的是类内变化，这种变化在计算相似度时应该被抑制。尽管现有SOTA的VLMs在标签效率、训练效率和数据效率方面有所改进，但是在适应下游任务时仍需要针对任务进行超参数调整，并且未能完全利用到测试样本来提升性能。传统标签传播的问题是需要对所有数据点传播标签，计算复杂度高，且不能充分利用已经计算的伪标签（pseudo labels）。为了减少超参数调优，本文提出基于图的适配与推理方法，动态构建包含少样本、测试样本和文本提示的图，利用数据流形结构采用。

2025-04-12 22:23:58 630

原创论文分享：【2025 ICLR】GENERAL SCENE ADAPTATION FOR VISION-AND LANGUAGE NAVIGATION

本文就提出了一个新的任务General Scene Adaptation for VLN（**GSA-VLN**）来解决上述的问题，使得代理在特定场景中执行导航指令的同时，能够适应该场景并随着时间推移提升性能。此外，论文还提出了一个新的数据集**GSA-R2R**，用于评估代理在分布内和分布外环境中的适应能力，并设计了一个三阶段指令编排流程，利用LLMs来丰富指令的多样性和风格，来更好反映现实世界中用户指令的多样性。

2025-04-12 22:17:16 450

原创论文分享：【2024 CVPR】Imagine Before Go: Self-Supervised Generative Map for Object Goal Navigation

物体目标导航（ObjectNav）要求智能体在未知环境中导航至指定目标，这就要求智能体能从部分观察中推断未知的上下文物体和环境，从而推测目标的可能位置。本文提出了一种自监督生成地图( **S**elf-supervised **G**enerative **M**ap, **SGM**)的方法，这是一种通过**自监督学习**来学习**显式上下文关系**的**模块化**方法。SGM通过利用情景观察和通用知识来重建局部地图（全局地图被裁剪后生成的）的被遮挡像素进行训练。

2025-04-12 22:12:40 508

原创论文分享：【2023】VLN-PETL: Parameter-Efficient Transfer Learning for Vision-and-Language Navigation

提出了一个针对VLN任务的由两个PETL模块Historical Interaction Booster(HIB)、Cross-modal Interaction Booster(CIB)和几种现有PETL方法结合起来的集成的VLN-PETL方法。

2024-10-24 20:53:49 971

原创论文分享：【2024】Navigating Beyond Instructions: Vision-and-Language Navigation in Obstructed Environments

本文贡献：在R2R数据集上引入障碍来生成一个新的数据集`R2R-UNO`，用来反映指令-现实的不匹配情况；由于当前VLN方法在有障碍的环境中缺乏适应性，提出`ObVLN`方法，采用课程学习策略和一种新的虚拟图构建方式(为被遮挡的边引入虚拟节点)，该方法在原始环境R2R和阻塞环境R2R-UNO中都表现良好。

2024-10-16 20:34:19 1019

原创安装Elasticsearch8.6.2出现的问题总结(Windows10)

主要记录了在卸载旧版本elasticsearch后，安装最新版本的elasticsearch8.6.2时出现的闪退问题。这是由于jdk环境配置出错而导致的，本文记录了解决此问题的思路和过程。

2023-03-10 09:55:02 1659

泰上勒君的博客