
视觉语言导航VLN
文章平均质量分 87
主要记录VLN当中的一些经典论文
优惠券已抵扣
余额抵扣
还需支付
¥19.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
初篱
这个作者很懒,什么都没留下…
展开
-
代码复现4—Robo-VLN
连续动作空间下的视觉语言导航,。原创 2025-03-10 19:28:11 · 77 阅读 · 0 评论 -
代码复现2——Habitat安装过程记录
Habitat是一个用于研究具体智能(Embodied AI)的平台。Habitat 支持在高效的逼真 3D 模拟中训练具身智体(虚拟机器人)。Habitat-Sim:一个灵活、高性能的3D模拟器,具有可配置的agent、传感器和通用的3D数据集处理(内置对Matterport3D、Gibson和Replica数据集的支持)。原创 2023-10-25 17:35:32 · 2182 阅读 · 3 评论 -
代码复现3—VLN-CE
运行训练完后在 data文件下会自动生成一个“checkpoints”文件,文件下包含任务文件“seq2seq”,该文件下会包括训练出来的权重和评估结果。数据集下载完后路径提取:data/scene_datasets/mp3d/{scene}/{scene}.glb。注意这里下载的数据集并不是所有的matterport3d,只需要一部分,包含90个场景,大小压缩后约16G。在“eval”时,会在data文件下生成videos文件,里面存放的是可视化的轨迹视频。原创 2023-11-01 19:47:21 · 1528 阅读 · 13 评论 -
代码复现1——Matterport3d数据集下载
进入“Dataset Download”部分,下载申请书,填写之后发送到指定邮箱(matterport3d@googlegroups.com),之后会收到回信,回信中附有一个download_mp.py的脚本文件。,大小约15G,并不是所有的Mp3d datasets,所有大小约1.3T。下载完成后如下图所示:我这边显示大小为16.1G。原创 2023-10-23 09:01:23 · 4975 阅读 · 30 评论 -
2024NIPS《Vision-Language Navigation with Energy-Based Policy》阅读
视觉-语言导航(VLN)要求智能体根据人类的指令执行动作。现有的VLN模型通过监督式行为克隆的专家示范或纳入手动奖励工程进行优化。虽然直接,但这些努力忽视了马尔可夫决策过程中累积的错误,并且难以匹配专家策略的分布。超越这一点,我们提出了一种基于能量的导航策略(ENP),使用基于能量的模型来模拟联合状态-动作分布。在每一步中,低能量值对应于专家最有可能执行的状态-动作对,反之亦然。从理论上讲,优化目标相当于最小化专家的占据度量与我们的之间的前向散度。原创 2024-12-23 15:58:26 · 116 阅读 · 0 评论 -
2024CVPR 《Lookahead Exploration with Neural Radiance Representation for Continuous VLN 》阅读2(附录)
我们将k近邻搜索半径设置为1米,稀疏采样策略的半径也设置为1米。渲染射线从0到10米之间进行均匀采样,采样点的数量N设置为256。。由于特征的数量设置为4,每个聚合特征的维度为512,因此特征网络的输入维度为2048。网络的整体架构如图6所示。视图编码器由四层Transformer组成,未来视图中的区域特征数量设置为7×7。。HNR模型在大规模HM3D [34]数据集上进行预训练,该数据集包含800个训练场景。原创 2024-10-15 11:05:42 · 167 阅读 · 0 评论 -
2024CVPR 《Lookahead Exploration with Neural Radiance Representation for Continuous VLN 》阅读1
视觉-语言导航(VLN)使智能体能够在3D环境中根据自然语言指令导航到远程目标位置。在每一步导航中,智能体从可能的候选位置中进行选择并作出动作决策。为了提升导航规划的效果,前瞻探索策略旨在通过准确预测候选位置的未来环境来有效评估智能体的下一步行动。现有的一些工作通过预测未来环境的RGB图像来实现这一目的,但此类方法面临图像失真和计算成本高的问题。为了解决这些问题,我们提出了预训练的层次化神经辐射表示模型(HNR),该模型能够为未来环境生成多层次的语义特征,这些特征相比像素级的RGB重建更加稳健且高效。原创 2024-10-13 11:06:43 · 720 阅读 · 0 评论 -
2024 RAL 《Safe-VLN: Collision Avoidance for VLN of Autonomous Robots Operating in Continuous Enviro》
连续环境中的自然语言导航任务(VLN-CE)旨在训练一个自主机器人通过视觉和语言指令在3D连续环境中执行低级动作进行导航。VLN-CE任务对于移动机器人的发展至关重要。然而,现有的VLN-CE工作主要集中在将离散环境中的视觉语言导航(VLN)转移到连续环境中,忽略了碰撞问题。这种疏忽通常会导致智能体偏离计划路径,或在极端情况下,智能体被困在障碍物区域而无法完成导航任务。为了解决问题,本研究调查了VLN-CE任务中的各种碰撞场景,并。此外,提出了一种新的VLN-CE算法,命名为。该算法 通过和。原创 2024-07-21 17:22:56 · 349 阅读 · 1 评论 -
2024VLN综述(2)
和。这种分类反映了VLN代理在处理多模式信息、执行复杂推理、解决数据短缺和适应环境变化方面的独特策略。每一类代理都为VLN任务的特定方面提供了解决方案,展示了执行复杂视觉和语言任务的多样性。系统的分类为研究人员提供了全面而详细的视角,加深了对VLN代理如何处理任务、数据和环境适应性的理解。这不仅有助于当前研究的进展,也指导了未来VLN技术的发展和创新。原创 2024-03-12 19:00:59 · 367 阅读 · 2 评论 -
2024VLN综述(1)
视觉语言导航(VLN)[12-14]作为体现智能领域的一个重要研究方向,融合了人工智能、自然语言处理、计算机视觉和机器人技术。其目的是通过理解自然语言指令和解释视觉信息,使代理能够在虚拟和真实环境中导航[15-17]。这种方法不仅为更自然、更高效的人机交互铺平了道路,而且符合人类对人工智能未来发展的期望。如图1所示,VLN代理通常将视觉信息和语言指令作为输入进行处理,输出包括导航动作和对象识别,从而促进在复杂环境中的有效导航[18,19]。原创 2024-03-12 18:59:22 · 953 阅读 · 0 评论 -
2022《OpenScene: 3D Scene Understanding with Open Vocabularies》阅读笔记2
我们基于PyTorch实现。为了提取,我们使用Adam[26]作为优化器,初始学习率为1e−4,并训练100个epochs。对于MinkowskiNet,我们对ScanNet和Matterport3D实验使用2cm的体素大小,对nuScenes使用5cm的体素尺寸。对于室内数据集,我们将场景的所有点输入到3D主干以具有完整的上下文,但对于蒸馏损失(Eq.2),由于内存限制,在本文中,我们在每次迭代时仅使用20K均匀采样的点特征进行监督。原创 2024-02-28 11:17:45 · 270 阅读 · 0 评论 -
《OpenScene: 3D Scene Understanding with Open Vocabularies》阅读笔记1
传统的3D场景理解方法依赖于带标签的3D数据集,用于训练一个模型以进行单一任务的监督学习。我们提出了OpenScene,一种替代方法,。这种零样本方法实现了与任务无关的训练和开放词汇查询。例如,为了执行最先进的零样本 3D语义分割,它首先推断每个3D点的CLIP特征,然后根据与任意类别标签的嵌入的相似性对它们进行分类。更有趣的是,它实现了一系列以前从未实现过的开放词汇场景理解应用。例如,。原创 2024-02-28 10:48:14 · 596 阅读 · 0 评论 -
Language-Aligned Waypoint (LAW) Supervision
视觉语言导航任务的一个挑战是如何处理智能体偏离参考路径的“偏离路径”场景(即智能体偏离指令规定的参考路径)。先前的工作根据从智能体的位置到目标点的最短路径来对智能体进行监督,这种以目标为导向的监督通常与指令的描述不一致,并且先前工作采用的评估指标并不能衡量智能体能够遵循多少语言指令。在本文,提出一种,以及一个可以。语言对齐监督方案鼓励智能体在每一个导航时间步都向与语言对齐的路径上(即参考路径)最近的路点移动,从而监督智能体更好地遵循指令(见图1)。原创 2024-01-06 16:02:06 · 494 阅读 · 0 评论 -
VLN中的训练方法及数据增强
本文提出了一种可泛化的导航智能体。智能体的训练分两个阶段进行。第一阶段是通过,结合离线策略和在线策略优化的好处。第二阶段是通过引入新的“unseen”三元组(环境、路径、指令)进行。为了生成这些“unseen triplets”,我们提出了一种简单而有效的“environmental dropout”方法来模拟看不见的环境,这克服了有限的可见环境中可变性的问题。接下来,我们将半监督学习(通过反向翻译)应用于这些被丢弃的环境,以生成新的路径和指令。原创 2023-12-29 10:12:18 · 579 阅读 · 0 评论 -
2023ICCV《GridMM: Grid Memory Map for Vision-and-Language Navigation》阅读笔记
视觉和语言导航(VLN)使代理能够在3D环境中按照自然语言指令导航到远程位置。为了表示以前访问过的环境,大多数VLN方法使用递归状态、拓扑映射或自上而下的语义映射来实现内存。与这些方法相反,我们。从全局角度来看,历史观测以自上而下的方式投影到统一的网格图中,可以更好地表示环境的空间关系。从局部角度来看,我们进一步提出了一种。在离散环境中的REVERIE、R2R、SOON数据集和连续环境中的R2R-CE数据集上进行了大量实验,表明了我们提出的方法的优越性。开源。原创 2023-10-28 21:16:17 · 398 阅读 · 0 评论 -
2022CVPR《Cross-modal Map Learning for Vision and Language Navigation》阅读笔记
目前大多数的视觉语言导航方法都是使用非结构化的内存(如LSTM)进行端到端训练,或者使用跨模态注意力对代理的自我中心观察进行训练。在这篇文章中,我们认为当视觉和语言发生在明确的空间表征时,它们之间的联系会加强。因此,我们提出一种用于视觉语言导航的跨模态地图学习()模型,该模型首先学习预测以自我为中心的地图上观察到和未观察到的区域的自上而下的语义,然后将通往目标的路径预测为一组路点。在这两种情况下,预测都是由语言通过跨模态注意机制提供的。我们所提的方法将问题分解成语义和空间两条路径,如图1所示。原创 2023-08-30 10:11:34 · 324 阅读 · 0 评论 -
《ETPNav: Evolving Topological Planning forVision-Language Navigation in ContinuousEnvironments》阅读笔记
为了开发一个强大的VLN-CE代理,我们提出了一个新的导航框架ETPNav。它专注于两个关键技能:1)抽象环境和生成远程导航计划的能力,以及2)在连续环境中进行避障控制的能力。ETPNav通过沿遍历路径的自组织预测路点来执行环境的在线拓扑映射,而无需事先的环境经验。它允许代理将导航过程分解为高级规划和低级控制。同时,ETPNav利用基于转换器的跨模态规划器来生成基于拓扑图和指令的导航计划。然后通过障碍物规避控制器执行该计划,该控制器利用试错启发式来防止导航陷入障碍物。实验结果证明了该方法的有效性。原创 2023-08-29 08:53:11 · 365 阅读 · 4 评论 -
2021 ICRA《Hierarchical Cross-Modal Agent for Robotics Vision-and-Language Navigation》阅读笔记
在VLN任务中,我们将Agent从导航图中移除,并在连续的3D重建环境中提出了一个更复杂但更接近现实世界的VLN设置,在该设置中,机器人VLN任务具有较长的轨迹长度、连续的动作空间、考虑障碍物等挑战,对此,我们提出将机器人VLN任务分解成专门的高级策略和低级策略。实验表明,我们提出的分层跨模态(HCM)代理在所有关键指标上都优于现有的基线,并为Robo VLN 建立了一个新的基线。本文基于VLN-CE,考虑在连续环境中实现VLN任务。原创 2023-08-09 11:12:57 · 375 阅读 · 0 评论 -
《3D Scene Graph: A Structure for Unified Semantics, 3D Space, and Camera》
属性:图形中的每个建筑、房间、对象和相机节点(从现在起称为元素)都有一组属性。一些示例包括对象类、三维形状、材质类型、姿势信息等。关系:元素之间的连接是通过边来建立的,可以跨越不同的层(如对象到对象、相机到对象再到房间等)。属性和关系的完整列表如表1所示。(3D场景图由4层组成,分别表示语义、3D空间和相机。元素是图中的节点,具有某些属性。它们之间的关系用边来表示(如遮挡、相对体积等))原创 2023-04-23 21:15:41 · 245 阅读 · 0 评论 -
NeurIPS 2022《Weakly-Supervised Multi-Granularity Map Learningfor Vision-and-Language Navigation》阅读笔记
主要内容:构建了能够准确表示环境对象的空间位置和语义信息的地图—WS-MGMap。实施方法:1)构建了一个多粒度映射来表示环境对象的细粒度细节(如颜色纹理)和抽象语义信息。2)提出了一种弱监督对象定位辅助任务,代理从中学习多粒度信息来推断有区别的地图表示,而不需要手动地图注释。结果:代理不仅可以定位与指令相关的导航对象,而且还被鼓励学习更好的地图表示,来表示对象信息。之后,将学习到的地图和指令提供给航路点预测器来确定下一个导航目标。原创 2023-07-07 21:56:08 · 299 阅读 · 0 评论 -
2020ECVV《VLN-CE》阅读笔记
文章提出了连续环境中的VLN,并提供了基线模型,同时开展了消融实验,说明各个模态的重要性。原创 2023-07-06 10:10:07 · 671 阅读 · 0 评论 -
2023 ICRA《Visual Language Maps for Robot Navigation》阅读笔记
视觉语言导航可以使用预先训练的现有的视觉语言模型来将图像与对象目标的自然语言描述相匹配,但它与绘制环境的过程仍然脱节,缺乏经典几何地图的空间精度。为了解决这个问题,我们提出了VLMaps,这是一种空间地图表示,它将预训练的视觉语言特征与物理世界的3D重建直接融合在一起。VLMaps可以使用标准探索方法从机器人上的视频馈送中自主构建,并在没有额外标记数据的情况下实现地图的自然语言索引。具体来说,当与大型语言模型(LLM)相结合时,VLMaps可以用于。原创 2023-06-13 08:00:00 · 1534 阅读 · 0 评论 -
2022ICPR《SASRA:用于连续环境中视觉和语言导航的语义感知时空推理代理》
本文提出了一种在连续三维环境中执行视觉语言导航(VLN)任务的新方法,该方法要求自主智能体在不可见环境中遵循自然语言指令。现有的基于端到端学习的VLN方法很难完成这项任务,因为它们主要侧重于利用原始的视觉观察,缺乏语义时空推理能力,而这对于泛化到新环境至关重要。在这方面,我们提出了一个混合的transformer-recurrence模型,该模型侧重于将经典的语义映射技术与基于学习的方法相结合。原创 2023-05-05 16:28:02 · 404 阅读 · 0 评论 -
《MiniGPT-4:Enhancing Vision-Language Understanding withAdvanced Large Language Models》阅读笔记
最近的GPT-4展示了非凡的多模态能力,例如直接从手写文本生成网站,以及识别图像中的幽默元素。这些特征在以前的视觉语言模型中很少观察到。我们认为GPT-4先进的多模式生成功能的主要原因在于使用了更先进的大型语言模型(LLM)。为了研究这一现象,我们提出了MiniGPT-4,它只使用一个投影层将冻结的视觉编码器与冻结的LLM, Vicuna(开源语言模型)对齐。我们的研究结果表明,MiniGPT-4具有许多与GPT-4类似的功能,如通过手写草稿生成详细的图像描述和创建网站。原创 2023-04-20 16:00:14 · 162 阅读 · 0 评论 -
2021 CVPR 《VLN BERT: A Recurrent Vision-and-Language BERT for Navigation》论文阅读笔记
在本文中,我们提出了一个用于VLN的时间敏感的循环BERT模型。具体来说,我们为BERT模型配备了一个循环函数,该函数为代理维护跨模态状态信息。此外,我们的方法可以推广到其他基于transformer的架构,支持预训练并能够解决导航和引用表达式任务。VLN可以被看成部分可观察的马尔科夫决策过程,其中未来的观察依赖于智能体当前的状态和行动;同时,在每个导航步骤中,视觉观测只对应部分指令,需要智能体跟踪导航进度,并正确定位相关子指令,以获得决策所需的有用信息。原创 2023-04-04 11:01:46 · 577 阅读 · 1 评论 -
2021 CVPR 《VLN BERT: A Recurrent Vision-and-Language BERT for Navigation》论文阅读笔记2
首先计算模型最后一层中每个头的状态和语言的得分,然后将所有注意头的分数求和然后平均,并应用softmax函数得到总体的状态语言权重,接着和原始文本X相乘得到该状态下的文本特征。得到最后一层的输出状态特征和最后一层的视觉特征。在导航过程中,将状态序列、语言特征序列和新观察到的视觉观测信息分别输入到跨模态编码器和单模态编码器,以获得更新的状态和决策概率。输入为之前的状态S_t-1、整个文本特征X、新观察到的场景视觉特征Vt和对象的视觉特征Ot。的视觉图像特征投影到与文本特征相同的空间上,然后输入到模型中。原创 2023-04-13 14:44:14 · 420 阅读 · 1 评论