- 博客(35)
- 收藏
- 关注
原创 2024NIPS《Vision-Language Navigation with Energy-Based Policy》阅读
视觉-语言导航(VLN)要求智能体根据人类的指令执行动作。现有的VLN模型通过监督式行为克隆的专家示范或纳入手动奖励工程进行优化。虽然直接,但这些努力忽视了马尔可夫决策过程中累积的错误,并且难以匹配专家策略的分布。超越这一点,我们提出了一种基于能量的导航策略(ENP),使用基于能量的模型来模拟联合状态-动作分布。在每一步中,低能量值对应于专家最有可能执行的状态-动作对,反之亦然。从理论上讲,优化目标相当于最小化专家的占据度量与我们的之间的前向散度。
2024-12-23 15:58:26
113
原创 2024CVPR 《Lookahead Exploration with Neural Radiance Representation for Continuous VLN 》阅读2(附录)
我们将k近邻搜索半径设置为1米,稀疏采样策略的半径也设置为1米。渲染射线从0到10米之间进行均匀采样,采样点的数量N设置为256。。由于特征的数量设置为4,每个聚合特征的维度为512,因此特征网络的输入维度为2048。网络的整体架构如图6所示。视图编码器由四层Transformer组成,未来视图中的区域特征数量设置为7×7。。HNR模型在大规模HM3D [34]数据集上进行预训练,该数据集包含800个训练场景。
2024-10-15 11:05:42
164
原创 2024CVPR 《Lookahead Exploration with Neural Radiance Representation for Continuous VLN 》阅读1
视觉-语言导航(VLN)使智能体能够在3D环境中根据自然语言指令导航到远程目标位置。在每一步导航中,智能体从可能的候选位置中进行选择并作出动作决策。为了提升导航规划的效果,前瞻探索策略旨在通过准确预测候选位置的未来环境来有效评估智能体的下一步行动。现有的一些工作通过预测未来环境的RGB图像来实现这一目的,但此类方法面临图像失真和计算成本高的问题。为了解决这些问题,我们提出了预训练的层次化神经辐射表示模型(HNR),该模型能够为未来环境生成多层次的语义特征,这些特征相比像素级的RGB重建更加稳健且高效。
2024-10-13 11:06:43
713
原创 2024 RAL 《Safe-VLN: Collision Avoidance for VLN of Autonomous Robots Operating in Continuous Enviro》
连续环境中的自然语言导航任务(VLN-CE)旨在训练一个自主机器人通过视觉和语言指令在3D连续环境中执行低级动作进行导航。VLN-CE任务对于移动机器人的发展至关重要。然而,现有的VLN-CE工作主要集中在将离散环境中的视觉语言导航(VLN)转移到连续环境中,忽略了碰撞问题。这种疏忽通常会导致智能体偏离计划路径,或在极端情况下,智能体被困在障碍物区域而无法完成导航任务。为了解决问题,本研究调查了VLN-CE任务中的各种碰撞场景,并。此外,提出了一种新的VLN-CE算法,命名为。该算法 通过和。
2024-07-21 17:22:56
348
2
原创 2024VLN综述(2)
和。这种分类反映了VLN代理在处理多模式信息、执行复杂推理、解决数据短缺和适应环境变化方面的独特策略。每一类代理都为VLN任务的特定方面提供了解决方案,展示了执行复杂视觉和语言任务的多样性。系统的分类为研究人员提供了全面而详细的视角,加深了对VLN代理如何处理任务、数据和环境适应性的理解。这不仅有助于当前研究的进展,也指导了未来VLN技术的发展和创新。
2024-03-12 19:00:59
367
2
原创 2024VLN综述(1)
视觉语言导航(VLN)[12-14]作为体现智能领域的一个重要研究方向,融合了人工智能、自然语言处理、计算机视觉和机器人技术。其目的是通过理解自然语言指令和解释视觉信息,使代理能够在虚拟和真实环境中导航[15-17]。这种方法不仅为更自然、更高效的人机交互铺平了道路,而且符合人类对人工智能未来发展的期望。如图1所示,VLN代理通常将视觉信息和语言指令作为输入进行处理,输出包括导航动作和对象识别,从而促进在复杂环境中的有效导航[18,19]。
2024-03-12 18:59:22
948
原创 2022《OpenScene: 3D Scene Understanding with Open Vocabularies》阅读笔记2
我们基于PyTorch实现。为了提取,我们使用Adam[26]作为优化器,初始学习率为1e−4,并训练100个epochs。对于MinkowskiNet,我们对ScanNet和Matterport3D实验使用2cm的体素大小,对nuScenes使用5cm的体素尺寸。对于室内数据集,我们将场景的所有点输入到3D主干以具有完整的上下文,但对于蒸馏损失(Eq.2),由于内存限制,在本文中,我们在每次迭代时仅使用20K均匀采样的点特征进行监督。
2024-02-28 11:17:45
270
原创 《OpenScene: 3D Scene Understanding with Open Vocabularies》阅读笔记1
传统的3D场景理解方法依赖于带标签的3D数据集,用于训练一个模型以进行单一任务的监督学习。我们提出了OpenScene,一种替代方法,。这种零样本方法实现了与任务无关的训练和开放词汇查询。例如,为了执行最先进的零样本 3D语义分割,它首先推断每个3D点的CLIP特征,然后根据与任意类别标签的嵌入的相似性对它们进行分类。更有趣的是,它实现了一系列以前从未实现过的开放词汇场景理解应用。例如,。
2024-02-28 10:48:14
595
原创 Language-Aligned Waypoint (LAW) Supervision
视觉语言导航任务的一个挑战是如何处理智能体偏离参考路径的“偏离路径”场景(即智能体偏离指令规定的参考路径)。先前的工作根据从智能体的位置到目标点的最短路径来对智能体进行监督,这种以目标为导向的监督通常与指令的描述不一致,并且先前工作采用的评估指标并不能衡量智能体能够遵循多少语言指令。在本文,提出一种,以及一个可以。语言对齐监督方案鼓励智能体在每一个导航时间步都向与语言对齐的路径上(即参考路径)最近的路点移动,从而监督智能体更好地遵循指令(见图1)。
2024-01-06 16:02:06
494
原创 VLN中的训练方法及数据增强
本文提出了一种可泛化的导航智能体。智能体的训练分两个阶段进行。第一阶段是通过,结合离线策略和在线策略优化的好处。第二阶段是通过引入新的“unseen”三元组(环境、路径、指令)进行。为了生成这些“unseen triplets”,我们提出了一种简单而有效的“environmental dropout”方法来模拟看不见的环境,这克服了有限的可见环境中可变性的问题。接下来,我们将半监督学习(通过反向翻译)应用于这些被丢弃的环境,以生成新的路径和指令。
2023-12-29 10:12:18
572
原创 2020CVPR《DD-PPO: LEARNING NEAR-PERFECT POINTGOALNAVIGATORS FROM 2.5 BILLION FRAMES》阅读笔记
我们提出了分布式去中心近端策略优化(DD-PPO,Decentralized Distributed Proximal Policy Optimization),这是一种在资源密集型模拟环境中进行分布式强化学习的方法。DD-PPO是分布式的(使用多台机器)、去中心化的(没有中央服务器)和同步的(没有任何计算是“过时的”),这使得它在概念上简单且易于实现。在Habitat-Sim中训练虚拟机器人进行的实验中,DD-PPO表现出近线性的扩展性。
2023-12-24 18:08:52
1583
1
原创 2022ICLR《LEARNING TO MAP FORACTIVE SEMANTIC GOAL NAVIGATION》阅读笔记
研究了未知环境下的目标导航问题。解决这个问题需要学习上下文语义先验,这是一个具有挑战性的努力,因为室内环境的空间和语义可变性。当前的方法学习通过面向目标的导航策略函数来隐式地编码这些先验,这些策略函数在空间表示上操作,这些空间表示仅限于代理的可观察区域。在这项工作中,我们提出了一个新的框架,该框架主动学习在智能体的视野之外生成语义地图,并利用未观察到的区域中语义类的不确定性来决定长期目标。我们证明,通过这种空间预测策略,我们能够在场景中学习语义先验,这些场景可以在未知环境中利用。此外,我们还展示了在搜索语义
2023-12-23 17:19:17
897
原创 代码复现3—VLN-CE
运行训练完后在 data文件下会自动生成一个“checkpoints”文件,文件下包含任务文件“seq2seq”,该文件下会包括训练出来的权重和评估结果。数据集下载完后路径提取:data/scene_datasets/mp3d/{scene}/{scene}.glb。注意这里下载的数据集并不是所有的matterport3d,只需要一部分,包含90个场景,大小压缩后约16G。在“eval”时,会在data文件下生成videos文件,里面存放的是可视化的轨迹视频。
2023-11-01 19:47:21
1507
14
原创 2023ICCV《GridMM: Grid Memory Map for Vision-and-Language Navigation》阅读笔记
视觉和语言导航(VLN)使代理能够在3D环境中按照自然语言指令导航到远程位置。为了表示以前访问过的环境,大多数VLN方法使用递归状态、拓扑映射或自上而下的语义映射来实现内存。与这些方法相反,我们。从全局角度来看,历史观测以自上而下的方式投影到统一的网格图中,可以更好地表示环境的空间关系。从局部角度来看,我们进一步提出了一种。在离散环境中的REVERIE、R2R、SOON数据集和连续环境中的R2R-CE数据集上进行了大量实验,表明了我们提出的方法的优越性。开源。
2023-10-28 21:16:17
396
原创 代码复现2——Habitat安装过程记录
Habitat是一个用于研究具体智能(Embodied AI)的平台。Habitat 支持在高效的逼真 3D 模拟中训练具身智体(虚拟机器人)。Habitat-Sim:一个灵活、高性能的3D模拟器,具有可配置的agent、传感器和通用的3D数据集处理(内置对Matterport3D、Gibson和Replica数据集的支持)。
2023-10-25 17:35:32
2165
4
原创 代码复现1——Matterport3d数据集下载
进入“Dataset Download”部分,下载申请书,填写之后发送到指定邮箱(matterport3d@googlegroups.com),之后会收到回信,回信中附有一个download_mp.py的脚本文件。,大小约15G,并不是所有的Mp3d datasets,所有大小约1.3T。下载完成后如下图所示:我这边显示大小为16.1G。
2023-10-23 09:01:23
4913
31
原创 预训练模型杂记
CLIP是OpenAI于2021年发表的,是一种基于对比文本-图像对的预训练方法,可以直接实现zero-shot(直接推理,不需要任何训练微调)的图像分类,可以实现zero-shot检测,即检测训练数据集没有包含的类别。CLIP 在做视频检索时,输入文本可直接找到视频中出现的对应物体(一帧一帧和文本特征作对比,找到最相似的一帧)CLIP利用多模态的对比学习,使得自然语言可以引导模型学习视觉概念,从而实现非常灵活的zero-shot迁移。为了提升效率,预训练方法采用对比学习。
2023-09-18 16:47:48
92
原创 2022CVPR《Cross-modal Map Learning for Vision and Language Navigation》阅读笔记
目前大多数的视觉语言导航方法都是使用非结构化的内存(如LSTM)进行端到端训练,或者使用跨模态注意力对代理的自我中心观察进行训练。在这篇文章中,我们认为当视觉和语言发生在明确的空间表征时,它们之间的联系会加强。因此,我们提出一种用于视觉语言导航的跨模态地图学习()模型,该模型首先学习预测以自我为中心的地图上观察到和未观察到的区域的自上而下的语义,然后将通往目标的路径预测为一组路点。在这两种情况下,预测都是由语言通过跨模态注意机制提供的。我们所提的方法将问题分解成语义和空间两条路径,如图1所示。
2023-08-30 10:11:34
319
原创 《ETPNav: Evolving Topological Planning forVision-Language Navigation in ContinuousEnvironments》阅读笔记
为了开发一个强大的VLN-CE代理,我们提出了一个新的导航框架ETPNav。它专注于两个关键技能:1)抽象环境和生成远程导航计划的能力,以及2)在连续环境中进行避障控制的能力。ETPNav通过沿遍历路径的自组织预测路点来执行环境的在线拓扑映射,而无需事先的环境经验。它允许代理将导航过程分解为高级规划和低级控制。同时,ETPNav利用基于转换器的跨模态规划器来生成基于拓扑图和指令的导航计划。然后通过障碍物规避控制器执行该计划,该控制器利用试错启发式来防止导航陷入障碍物。实验结果证明了该方法的有效性。
2023-08-29 08:53:11
365
5
原创 2021 ICRA《Hierarchical Cross-Modal Agent for Robotics Vision-and-Language Navigation》阅读笔记
在VLN任务中,我们将Agent从导航图中移除,并在连续的3D重建环境中提出了一个更复杂但更接近现实世界的VLN设置,在该设置中,机器人VLN任务具有较长的轨迹长度、连续的动作空间、考虑障碍物等挑战,对此,我们提出将机器人VLN任务分解成专门的高级策略和低级策略。实验表明,我们提出的分层跨模态(HCM)代理在所有关键指标上都优于现有的基线,并为Robo VLN 建立了一个新的基线。本文基于VLN-CE,考虑在连续环境中实现VLN任务。
2023-08-09 11:12:57
374
原创 NeurIPS 2022《Weakly-Supervised Multi-Granularity Map Learningfor Vision-and-Language Navigation》阅读笔记
主要内容:构建了能够准确表示环境对象的空间位置和语义信息的地图—WS-MGMap。实施方法:1)构建了一个多粒度映射来表示环境对象的细粒度细节(如颜色纹理)和抽象语义信息。2)提出了一种弱监督对象定位辅助任务,代理从中学习多粒度信息来推断有区别的地图表示,而不需要手动地图注释。结果:代理不仅可以定位与指令相关的导航对象,而且还被鼓励学习更好的地图表示,来表示对象信息。之后,将学习到的地图和指令提供给航路点预测器来确定下一个导航目标。
2023-07-07 21:56:08
298
原创 2023 ICRA《Visual Language Maps for Robot Navigation》阅读笔记
视觉语言导航可以使用预先训练的现有的视觉语言模型来将图像与对象目标的自然语言描述相匹配,但它与绘制环境的过程仍然脱节,缺乏经典几何地图的空间精度。为了解决这个问题,我们提出了VLMaps,这是一种空间地图表示,它将预训练的视觉语言特征与物理世界的3D重建直接融合在一起。VLMaps可以使用标准探索方法从机器人上的视频馈送中自主构建,并在没有额外标记数据的情况下实现地图的自然语言索引。具体来说,当与大型语言模型(LLM)相结合时,VLMaps可以用于。
2023-06-13 08:00:00
1533
原创 2022ICPR《SASRA:用于连续环境中视觉和语言导航的语义感知时空推理代理》
本文提出了一种在连续三维环境中执行视觉语言导航(VLN)任务的新方法,该方法要求自主智能体在不可见环境中遵循自然语言指令。现有的基于端到端学习的VLN方法很难完成这项任务,因为它们主要侧重于利用原始的视觉观察,缺乏语义时空推理能力,而这对于泛化到新环境至关重要。在这方面,我们提出了一个混合的transformer-recurrence模型,该模型侧重于将经典的语义映射技术与基于学习的方法相结合。
2023-05-05 16:28:02
402
原创 《3D Scene Graph: A Structure for Unified Semantics, 3D Space, and Camera》
属性:图形中的每个建筑、房间、对象和相机节点(从现在起称为元素)都有一组属性。一些示例包括对象类、三维形状、材质类型、姿势信息等。关系:元素之间的连接是通过边来建立的,可以跨越不同的层(如对象到对象、相机到对象再到房间等)。属性和关系的完整列表如表1所示。(3D场景图由4层组成,分别表示语义、3D空间和相机。元素是图中的节点,具有某些属性。它们之间的关系用边来表示(如遮挡、相对体积等))
2023-04-23 21:15:41
243
1
原创 《MiniGPT-4:Enhancing Vision-Language Understanding withAdvanced Large Language Models》阅读笔记
最近的GPT-4展示了非凡的多模态能力,例如直接从手写文本生成网站,以及识别图像中的幽默元素。这些特征在以前的视觉语言模型中很少观察到。我们认为GPT-4先进的多模式生成功能的主要原因在于使用了更先进的大型语言模型(LLM)。为了研究这一现象,我们提出了MiniGPT-4,它只使用一个投影层将冻结的视觉编码器与冻结的LLM, Vicuna(开源语言模型)对齐。我们的研究结果表明,MiniGPT-4具有许多与GPT-4类似的功能,如通过手写草稿生成详细的图像描述和创建网站。
2023-04-20 16:00:14
162
原创 《2023 ChatGPT for Robotics:Design Principles and Model Abilities》阅读笔记
这种能力在处理机器人应用程序时赋予LLM灵活性和健壮性。图4显示了ChatGPT如何在需要解决问题时创建新的高级概念,甚至是低级代码,甚至是融合现有api。循环中的用户可以利用这种能力作为一种设计策略,若当前的api不足以解决手头的任务时,可以在LLM的帮助下迭代地。
2023-04-17 08:50:12
1943
1
原创 “远程计算机或设备不接受连接”解决方法
问题现象:笔记本显示已经连接上了网络,但是所有浏览器都上不了网,QQ也打不开。在浏览器界面点击诊断网络,出现提示“远程计算机或设备不接受连接”。产生原因:使用了网络代理软件,在关闭软件之前没有关闭代理,比如使用了VPN,在关闭软件之前没有关闭网络代理。1)打开控制面板(win+R 打开命令行输入 control 即可打开)。注意:如果还是不行,可以去掉所有勾选来解决。3)点击“连接”然后选择“局域网设置”2)点击 Internet选项。4)只勾选“自动检测设置”。
2023-04-15 10:53:09
14375
原创 2021 CVPR 《VLN BERT: A Recurrent Vision-and-Language BERT for Navigation》论文阅读笔记2
首先计算模型最后一层中每个头的状态和语言的得分,然后将所有注意头的分数求和然后平均,并应用softmax函数得到总体的状态语言权重,接着和原始文本X相乘得到该状态下的文本特征。得到最后一层的输出状态特征和最后一层的视觉特征。在导航过程中,将状态序列、语言特征序列和新观察到的视觉观测信息分别输入到跨模态编码器和单模态编码器,以获得更新的状态和决策概率。输入为之前的状态S_t-1、整个文本特征X、新观察到的场景视觉特征Vt和对象的视觉特征Ot。的视觉图像特征投影到与文本特征相同的空间上,然后输入到模型中。
2023-04-13 14:44:14
414
1
原创 《2023 HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face》阅读笔记
借助大语言模型(LLMS)在语言理解生成推理等方面表现出的出色能力,考虑将其作为控制器来管理现有的各种AI模型,。基于这一理念,提出了HuggingGPT框架,利用LLMS(ChatGPT)来连接机器学习社区(Hug face)中的各种AI模型,具体来说就是在接收用户请求时使用ChatGPT来进行任务规划,根据Hug face中提供的模型功能描述选择模型,使用所选AI模型执行每一个子任务,并根据执行结果汇总响应。现有LLM技术的局限:1)局限于文本的输入输出形式。
2023-04-07 21:01:51
4211
原创 2021 CVPR 《VLN BERT: A Recurrent Vision-and-Language BERT for Navigation》论文阅读笔记
在本文中,我们提出了一个用于VLN的时间敏感的循环BERT模型。具体来说,我们为BERT模型配备了一个循环函数,该函数为代理维护跨模态状态信息。此外,我们的方法可以推广到其他基于transformer的架构,支持预训练并能够解决导航和引用表达式任务。VLN可以被看成部分可观察的马尔科夫决策过程,其中未来的观察依赖于智能体当前的状态和行动;同时,在每个导航步骤中,视觉观测只对应部分指令,需要智能体跟踪导航进度,并正确定位相关子指令,以获得决策所需的有用信息。
2023-04-04 11:01:46
576
1
原创 关于Docker的基础指令学习
1.是一个应用打包、分发、部署的工具。2.镜像(images):软件安装包。可等同于“类”的理解。容器(container):镜像运行的实体。可等同于“对象”的理解。仓库(Registry):用来保存镜像。Docker Hub提供了庞大的镜像集合供使用;其中1个Docker Registry 中可以包含多个仓库,每个仓库可以包含多个标签:每个标签对应一个镜像。可以通过命令::用来指定该软件的版本,如果不给标签,则默认latest。
2023-04-03 10:28:07
595
1
原创 关于Matterport3D的一些学习
这是一个大型RGB-D数据集,包含90个建筑规模场景的194400幅RGB-D图像中的10800幅全景。注释提供有表面重建、相机姿势以及2D和3D语义分割。精确的全局对齐和整个建筑的全面、多样化的全景视图集实现了各种监督和自我监督的计算机视觉任务,包括关键点匹配、视图重叠预测、颜色的正常预测、语义分割和区域分类。
2023-03-30 16:09:59
4654
原创 Learning a Visually Grounded Memory Assistang阅读笔记
基于Matterport3D,提出了“视觉基础记忆辅助数据集” ,可以用来检查人们如何在获得正确答案的时间成本与获得错误答案的风险之间进行权衡(因此,无法获得金钱奖励)。这可以提供一个丰富的途径来深入了解人们如何评估与获得正确答案、金钱和风险相关的旅行时间(即在未经确认的情况下猜测答案时出错的概率)。
2023-03-29 16:13:26
169
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人