- 博客(51)
- 收藏
- 关注
原创 Navigation World Models
导航是具有视觉-运动能力的智能体的基本技能。我们提出了一种导航世界模型(Navigation World Model, NWM),这是一种可控的视频生成模型,能够基于过去的观察和导航动作预测未来的视觉观察。为了捕捉复杂的环境动态,NWM采用了一种条件扩散Transformer(Conditional Diffusion Transformer, CDiT),该模型在多样化的第一人称视角视频数据集上进行了训练,包括人类和机器人智能体的视频,并扩展到了10亿参数规模。在熟悉的环境中,NWM可以通过模拟导航轨迹并
2025-03-13 10:06:14
865
原创 End-to-End Navigation with Vision-LanguageModels: Transforming Spatial Reasoning intoQuestion-Answ
我们提出了一种名为VLMnav的嵌入式框架,用于将视觉-语言模型(Vision-Language Model, VLM)转化为端到端导航策略。与以往的研究不同,我们不依赖感知、规划和控制的分离;相反,我们利用 VLM 在一步操作中直接选择动作。令人惊讶的是,我们发现 VLM 可以作为零样本的端到端策略使用,即无需任何微调或导航数据的训练。这使得我们的方法开放且能够泛化到任何下游导航任务中。
2025-01-14 15:49:37
773
原创 Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
人类能够利用视觉信息来记忆和推理空间(视觉-空间智能)。然而,(1)经过百万规模视频数据集训练的多模态大模型(Multimodal Large Language Models, MLLMs)是否也能够从视频中“在空间中思考”?我们提出了一个名为“VSI-Bench”的新基准,用于评估模型的视觉-空间智能。这个基准包括5000多个问答对,旨在检测模型从视频中理解和推理空间的能力。测试表明,虽然MLLMs具备一定的空间智能,但其表现仍未达到人类水平。
2025-01-13 15:38:36
1144
原创 Improving Vision-and-Language Navigation by Generating Future-View Image Semantics
视觉与语言导航(Vision-and-LanguageNavigation,VLN)是一项任务,要求智能体根据自然语言指令在环境中进行导航。在每一步中,智能体从一组可导航的位置中选择下一步动作。在本文中,我们旨在进一步探索智能体是否能够在导航过程中通过生成潜在的未来视角而受益。直观上,人类会根据自然语言指令和周围环境,对未来环境的样子产生预期,这有助于正确的导航。掩码全景建模(MaskedPanoramaModeling,MPM)
2025-01-06 17:46:58
745
原创 MLANet: Multi-Level Attention Network with Sub-instruction for Continuous Vision-and-Language Naviga
视觉与语言导航(Vision-and-Language Navigation, VLN)的目标是开发智能体,仅通过语言和视觉的监督在未知环境中导航。最近提出的连续设置(continuous VLN)要求智能体在自由的3D空间中行动,面临实时执行、复杂指令理解以及长动作序列预测等更高难度的挑战。为了提升连续VLN的性能,我们设计了一个多层次指令理解过程,并提出了一种新模型,称为多层注意网络(Multi-Level Attention Network, MLANet)。MLANet的第一步是高效生成子指令。
2024-12-30 21:51:19
783
原创 Cog-GA: A Large Language Models-based Generative Agent forVision-Language Navigation
在连续环境中的视觉语言导航(VLN-CE)是具身人工智能(Embodied AI)中的一个前沿任务,要求智能体仅通过自然语言指令,在无限制的三维空间中自由导航。这一任务对多模态理解、空间推理和决策提出了独特挑战。为应对这些挑战,我们提出了一种基于大语言模型(LLMs)的生成式智能体Cog-GA,专为VLN-CE任务设计。Cog-GA 采用了双重策略来模拟类人认知过程。首先,它构建了认知地图,整合了时间、空间和语义元素,从而帮助 LLMs 发展空间记忆能力。
2024-12-30 11:41:45
1007
原创 AdaVLN: Towards Visual Language Navigation in Continuous IndoorEnvironments with Moving Humans
视觉语言导航(VLN)是一项挑战机器人基于自然语言指令在现实环境中导航的任务。虽然以往的研究主要集中在静态环境中,但现实世界中的导航通常需要应对动态的人类障碍。因此,我们提出了该任务的扩展,称为自适应视觉语言导航(AdaVLN),旨在缩小这一差距。AdaVLN要求机器人在充满动态人类障碍物的复杂3D室内环境中导航,这为导航任务增加了一层复杂性,使其更贴近现实世界。为了支持这一任务的探索,我们还提出了AdaVLN模拟器和AdaR2R数据集。
2024-12-02 19:12:54
823
原创 LHPF: Look back the History and Plan for the Future in Autonomous Driving
自动驾驶中的决策和规划对系统的安全性至关重要,因此有效的规划至关重要。目前基于模仿学习的规划算法通常将历史轨迹与当前观测数据相结合,以预测未来的候选路径。然而,这些算法通常独立地评估当前和历史规划,导致驾驶意图的不连续性,并在不连续的规划中每一步都会积累误差。为了应对这一挑战,本文提出了LHPF,这是一种整合了历史规划信息的模仿学习规划器。我们的方法采用了一个历史意图聚合模块,用于汇集历史规划意图,然后将其与空间查询向量结合,以解码最终的规划轨迹。
2024-12-02 17:12:08
1023
原创 Navigating Beyond Instructions: Vision-and-Language Navigation in Obstructed Environments
现实世界的导航常常涉及处理意外的障碍物,如关闭的门、移动的物体和不可预测的实体。然而,主流的视觉与语言导航(VLN)任务通常假设指令与固定和预定义的导航图完全对齐,且没有任何障碍物。这一假设忽略了实际导航图和给定指令之间可能存在的差异,这可能会导致室内和室外代理的严重失败。。R2R-UNO包含多种类型和数量的路径障碍,旨在为VLN研究生成指令与现实不匹配的场景。在R2R-UNO上的实验表明,当前最先进的VLN方法在面对这些不匹配时不可避免地遇到重大挑战,这表明它们倾向于僵硬地遵循指令,而不是自适应地导航。
2024-10-16 15:50:20
1110
2
原创 InstructNav: Zero-shot System for Generic InstructionNavigation in Unexplored Environment
这项工作中,我们致力于开发首个能够在连续环境中执行通用指令导航的系统——,且无需进行任何导航训练或依赖预构建地图。为了实现这一目标,我们提出了动态导航链(Dynamic Chain-of-Navigation, DCoN),以统一不同的导航指令,并通过多源价值地图(Multi-sourced Value Maps)来建模导航中的关键要素。通过这种方式,基于语言的DCoN规划能够转化为机器人可执行的轨迹。大量在模拟器和真实机器人上的实验验证了我们这一无训练方法的泛化能力和有效性。
2024-10-14 18:43:18
1074
原创 Hierarchical Cross-Modal Agent for Robotics Vision-and-Language Navigation
1.问题背景和现有方法VLN任务:这是一种复杂的任务,要求智能体基于视觉输入和自然语言指令进行导航。现有方法的局限性:之前的工作大多将这个问题表示为离散的导航图,智能体的动作空间是有限的、离散的。2.新提出的设置Robo-VLN:这篇论文提出了一种新的任务环境,名为Robo-VLN。该设置更加复杂,因为智能体不再局限于离散的导航图,而是在连续的三维重建环境中进行操作。这个新环境更接近现实中的导航问题。Robo-VLN的挑战轨迹长度更长动作空间是连续的存在障碍物等现实问题3.基准和问题。
2024-10-08 20:03:41
1100
原创 Bridging the Gap Between Learning in Discrete and ContinuousEnvironments for Vision-and-Language Na
在视觉与语言导航(VLN)的现有研究中,大多数工作都侧重于离散或连续环境,训练的代理无法在这两者之间进行泛化。虽然学习在连续空间中导航更接近现实世界,但训练这种代理比在离散空间中训练代理要困难得多。然而,由于领域差异,最近在离散VLN中的进展难以直接应用于连续VLN。两种设置的根本区别在于,离散导航假设已知环境的连接图,这样代理可以通过绑定到可导航方向的图像,将低级控制的导航问题有效地转化为通过高级操作在节点间跳跃的问题。
2024-08-20 16:59:57
794
原创 Safe-VLN: Collision Avoidance for Vision-and-Language Navigation ofAutonomous Robots Operating in C
VLN-CE的主流框架主要有三个模块:一个路径点预测器、一个导航规划器和一个低级控制器。具体来说,通过学习Matterport3D中已知的导航图,路径点预测器在连续环境中通过预测视觉观察中附近的候选位置来生成高层次的导航路径点。基于预训练的路径点预测器,导航规划器生成下一个子目标路径点,这些路径点进一步由低级控制器实现。碰撞在VLN-CE中经常发生,主要面临以下挑战。首先,。其次,
2024-08-19 16:12:49
1017
原创 ViNT: A Foundation Model for Visual Navigation
预训练的方式在很多领域取得了成功,但是由于环境、平台和应用程序的绝对多样性,因此很难应用在机器人领域。那么想要做移动机器人的基础模型需要什么?本文定义了一个机器人领域的基础模型,可以实现(1)在新的、有用的环境里进行零样本学习;(2)适应所选择的下游任务。在视觉导航中,机器人必须完全使用以自我为中心的视觉观察来导航环境。一个通用的预先训练的机器人导航模型应该能够实现广泛的导航应用,容易地对下游任务进行微调,并推广到广泛的环境和机器人平台。
2024-06-18 21:48:51
1366
1
原创 论文阅读:BEVBert: Multimodal Map Pre-training for Language-guided Navigation
目前大多数现有的预训练方法都采用离散的全景图来学习视觉-文本关联。这要求模型隐式关联全景图中不完整、重复的观察结果,这可能会损害智能体的空间理解。提出了一种新的基于地图的具备空间感知能力的预训练范式,可用于 VLN。具体来说,我们构建一个局部度量地图来显式聚合不完整的观察结果并删除重复项,同时在全局拓扑地图中对导航依赖性进行建模。这种混合设计可以平衡 VLN 对短期推理和长期规划的需求。然后,基于混合地图,我们设计了一个预训练框架来学习多模态地图表示。
2024-04-19 10:28:17
1389
2
原创 LANA: A Language-Capable Navigator for Instruction Following and Generation
最近,视觉语言导航(VLN)——要求机器人代理遵循导航指令——已经取得了巨大的进步。然而,现有文献最强调。在本文中,我们设计了更具体地说,分别用于路由和语言编码的两个编码器由两个分别用于动作预测和指令生成的解码器构建和共享,以便利用跨任务知识并捕获特定于任务的特征。在整个预训练和微调过程中,指令跟踪和生成都被设置为优化目标。我们凭经验验证,与最新的先进任务特定解决方案相比,LANA 在指令跟踪和路由描述方面都获得了更好的性能,并且复杂度接近一半。
2024-03-03 21:13:27
914
原创 Learning from Unlabeled 3D Environments forVision-and-Language Navigation
在视觉和语言导航 (VLN) 中,实体代理需要按照自然语言指令在真实的 3D 环境中进行导航。现有 VLN 方法的一个主要瓶颈是缺乏足够的训练数据,导致对未见过的环境的泛化效果不理想。虽然 VLN 数据通常是手动收集的,但这种方法成本高昂并且阻碍了可扩展性。在这项工作中,我们通过建议从 HM3D 的 900 个未标记的 3D 建筑物自动创建大规模 VLN 数据集来解决数据稀缺问题[45]。我们为每个建筑物生成一个导航图,并从 2D 传输对象预测,通过跨视图一致性生成伪 3D 对象标签。
2024-03-03 21:13:14
1371
原创 KEFA: A Knowledge Enhanced and Fine-grained Aligned Speakerfor Navigation Instruction Generation
视觉和语言导航(VLN)[4]是一项智能体遵循自然语言指令采取行动并在虚拟环境中移动到目的地的任务。虽然在开发指令跟随智能体方面取得了巨大进展[45,60,9],但逆向任务——指令生成,最近受到了越来越多的关注。指令生成模型,或者说说话者,通常扮演着用自然语言描述环境中的轨迹的角色。在实际场景中,说话者模型可用于描述机器人在人类机器人协作任务中探索的路径[15, 54],或通过辅助指令引导盲人跟随者[25]。尽管以前的指令生成方法[16,1,59,55]带来了有希望的进步,但。
2024-03-03 21:12:56
792
原创 Less is More: Generating Grounded Navigation Instructions from Landmarks
寻路——导航到目的地——是一项日常任务。我们研究自动生成有效引导人们的导航指令。使用基本方向和街道名称的基于模板的语言生成器通常用于户外测绘应用,一些更灵活的生成方法依赖于包含地图、道路和地标信息的数据库[16,50,51]。相比之下,室内寻路指令需要以自我为中心的运动指导和对视觉环境(例如值得注意的物体)的参考。用于生成室内寻路指令的系统假设可以访问预先存在的平面图和地标数据库[41],但最近的工作试图直接从视觉输入生成新颖的指令[21,38,59]。
2024-03-03 21:12:48
683
原创 A New Path: Scaling Vision-and-Language Navigation withSynthetic Instructions and Imitation Learnin
开发遵循人类指令的智能代理是人工智能领域的一项长期而艰巨的挑战[66]。最近解决这个问题的一个焦点是视觉和语言导航 (VLN) [3, 9]。导航是研究指令遵循的理想测试平台,因为该任务可以按比例逼真地模拟,并且评估也很简单。然而,捕捉真实人类教师的语言多样性和特质的数据集很小,而且收集起来很昂贵。其他视觉和语言任务的人工注释训练数据短缺问题已通过在多达数十亿个图像文本对上进行预训练 Transformer 得到部分解决。
2024-03-03 21:12:39
850
原创 FOAM: A Follower-aware Speaker Model For Vision-and-LanguageNavigation
说话者-跟随者模型已被证明在视觉和语言导航中有效,其中说话者模型用于合成新指令以增强跟随者导航模型的训练数据。然而,在之前的许多方法中,生成的指令并没有被直接训练来优化跟随器的性能。在本文中,我们提出了 FOAM,一种 FOllower-Aware 说话者模型,它根据跟随者的反馈不断更新,从而生成的指令可以更适合跟随者当前的学习状态。具体来说,我们使用双层优化框架来优化说话者,并通过评估标记数据上的跟随者来获得其训练信号。
2024-03-01 16:45:24
683
1
原创 Airbert: In-domain Pretraining for Vision-and-Language Navigation
为了解决VLN数据集稀缺的问题,本文创建了一个数据集BNB。我们首先从在线租赁市场的数十万个列表中收集图像标题 (IC) 对。接下来,我们使用 IC 对提出自动策略来生成数百万个 VLN 路径-指令 (PI) 对。我们进一步提出了一种shuffling loss,可以改善路径-指令对内时间顺序的学习。我们使用 BnB 来预训练我们的 Airbert模型,该模型可以适应判别性和生成性设置,并表明它在房间到房间 (R2R) 导航和远程引用表达 (REVERIE) 基准测试方面优于最先进的技术。
2023-12-24 22:22:34
1092
原创 Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets
我们提出了Stable video diffusion——一种用于高分辨率、最先进的文本-视频和图像-视频生成的潜在视频扩散模型。最近,通过插入时间层并在小型高质量视频数据集上对其进行微调,用于 2D 图像合成训练的潜在扩散模型已转变为生成视频模型。然而,文献中的训练方法差异很大,该领域尚未就视频数据的统一策略达成一致。在本文中,我们确定并评估了视频 LDM 成功训练的三个不同阶段:文本到图像预训练、视频预训练和高质量视频微调。此外,我们证明了精心策划的预训练数据集对于生成高质量视频的必要性,并。
2023-12-12 22:36:24
2305
原创 3-D Scene Graph: A Sparse and SemanticRepresentation of Physical Environmentsfor Intelligent Agent
理解周围环境的能力是智能体成功完成给定任务的关键因素之一[1]。如果没有这种能力,智能体只能执行简单且有限的任务。为了实现多功能性能,智能体不仅必须感知环境的物理属性,还必须感知环境中固有的语义信息。在观察环境和存储收集到的信息的过程中,智能体构建环境模型,该模型紧凑地表示周围的空间[2]。此类模型包括由 SLAM [3] 生成的密集地图以及由计算机视觉和自然语言处理 (NLP) 算法生成的场景描述 [4]。环境模型让智能体计划如何执行给定的任务,并为推理和推理提供依据。因此,智能体的有效环境模型非常重要。
2023-12-11 17:33:29
1202
原创 Self-correcting LLM-controlled Diffusion Models
随着扩散模型的出现,文本到图像的生成取得了重大进展。尽管能够生成逼真的图像,但当前的文本到图像扩散模型仍然常常难以准确解释和遵循复杂的输入文本提示。与旨在尽最大努力生成图像的现有模型相比,我们引入了自校正 LLM 控制扩散(SLD)。SLD 是一个框架,它根据输入提示生成图像,评估其与提示的对齐情况,并对生成图像中的不准确之处进行自我纠正。在 LLM 控制器的控制下,SLD 将文本到图像的生成转变为迭代闭环过程,确保生成图像的正确性。
2023-12-11 17:12:30
1441
原创 Scaling Data Generation in Vision-and-Language Navigation
最近对语言引导视觉导航的研究表明,对可穿越环境的多样性和训练通用智能体的监督数量有很大的需求。为了解决现有视觉和语言导航数据集中常见的数据稀缺问题,我们提出了一种生成大规模学习数据的有效范例,该范例应用来自 HM3D 和 Gibson 数据集的 1200 多个逼真环境,并使用网络上完全可访问的资源合成 490 万个指令轨迹对。重要的是,我们研究了该范例中每个组件对智能体性能的影响,并研究如何充分应用增强数据来预训练和微调智能体。
2023-12-11 10:24:53
1008
原创 论文阅读:《Learning Universal Policies via Text-Guided Video Generation》
人工智能的目标是构建一个可以解决各种任务的代理。文本引导图像合成的最新进展已经产生了具有生成复杂新颖图像的令人印象深刻的能力的模型,展示了跨领域的组合泛化。受这一成功的激励,我们研究了此类工具是否可用于构建更通用的代理。具体来说,我们将顺序决策问题转化为以文本为条件的视频生成问题,其中,给定期望目标的文本编码规范,规划器合成一组描述其未来计划行动的未来帧,然后从生成的视频中提取动作。通过利用文本作为潜在的目标规范,我们能够自然地、组合地推广到新的目标。
2023-11-27 20:22:48
1216
原创 DrivingDiffusion: Layout-Guided multi-view driving scene video generation with latentdiffusion model
随着基于强大且统一的鸟瞰图(BEV)表示的自动驾驶的日益普及,迫切需要具有准确标注的高质量、大规模多视图视频数据。然而,由于昂贵的采集和标注成本,如此大规模的多视图数据很难获得。为了缓解这个问题,我们提出了一个时空一致的扩散框架 DrivingDiffusion,以生成由 3D 布局控制的逼真的多视图视频。在给定 3D 布局的情况下合成多视图视频时存在三个挑战:如何保持 1) 跨视图一致性和 2) 跨帧一致性?3)如何保证生成实例的质量?我们的 DrivingDiffusion 通过。
2023-11-27 20:21:25
1398
原创 论文阅读:《GAIA-1:A Generative World Model for Autonomous Driving》
自动驾驶有望对交通带来革命性的改进,但构建能够安全地应对现实世界场景的非结构化复杂性的系统仍然具有挑战性。一个关键问题在于有效预测随着世界的发展,车辆的行为可能出现的各种潜在结果。(也就是说构建一个可以有效的应对汽车行驶过程中可能出现的各种突发状态的一个系统是十分困难的)为了应对这一挑战,我们引入了 GAIA-1(“自主生成人工智能”),这是一种生成世界模型,利用视频、文本和动作输入来生成真实的驾驶场景,同时提供对自我车辆行为和场景特征的细粒度控制。我们的方法通过。
2023-11-24 22:27:22
2132
1
原创 论文阅读:ROBOGEN: TOWARDS UNLEASHING INFINITE DATAFOR AUTOMATED ROBOT LEARNING VIA GENERATIVESIMULATION
我们推出 RoboGen,这是一种生成机器人代理,可以通过生成模拟自动大规模学习各种机器人技能。RoboGen 利用基础模型和生成模型的最新进展。我们不直接使用或调整这些模型来产生策略或低级动作,而是提倡一种生成方案,该方案使用这些模型自动生成多样化的任务、场景和训练监督,从而在最少的人类监督下扩大机器人技能的学习。我们的方法为机器人代理提供了一个自我引导的提议(propose)-生成(generate)-学习(learning)循环.
2023-11-19 21:32:08
801
原创 论文阅读:NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models
ChatGPT 和 GPT-4 等大型语言模型 (LLM) 经过前所未有的数据规模训练,通过模型扩展展现出显着的推理能力。这种趋势凸显了用无限语言数据训练LLM的潜力,推动了通用具身智能体的开发。在这项工作中,我们引入了 NavGPT,一种纯粹基于 LLM 的指令跟踪导航智能体,通过对视觉和语言导航(VLN)执行零样本顺序动作预测来揭示 GPT 模型在复杂具体场景中的推理能力。在每一步中,NavGPT 都会将视觉观察、导航历史和未来可探索方向的文本描述作为输入来推理智能体的当前状态,并做出接近目标的决定。
2023-11-17 17:37:55
1191
1
原创 论文阅读:Discuss Before Moving: Visual Language Navigation via Multi-expert Discussions
视觉语言导航(VLN)是一项具体任务,需要广泛的技能,包括理解、感知和规划。对于这样一个多方面的挑战,以前的VLN方法完全依靠一个模型自己的思考在一轮内做出预测。然而,现有的模型,即使是最先进的大型语言模型 GPT4,仍然难以通过单轮自我思考来处理多个任务。在这项工作中,我们从专家咨询会议中汲取灵感,引入了一种新颖的零样本VLN框架。在这个框架内,具有独特能力的大模型被充当领域专家。我们提出的导航智能体,即 DiscussNav,可以在每一步行动之前与这些专家积极讨论以收集必要的信息。
2023-11-13 19:45:10
492
原创 论文阅读《ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object Navigation》
对于在现实世界中运行并与对象交互以完成任务的智能体来说,准确定位和导航到特定对象的能力是一项至关重要的能力。此类对象导航任务通常需要在带有标记对象的视觉环境中进行大规模训练,这对于未知环境中的新对象泛化能力较差。在这项工作中,我们提出了一种新颖的零样本对象导航方法,即带有软常识约束(ESC)的探索,该方法将预训练模型中的常识知识转移到开放世界对象导航,而无需任何导航经验或任何其他视觉训练环境。
2023-11-13 16:02:42
426
原创 论文阅读:《Room-Object Entity Prompting and Reasoning for Embodied Referring Expression》
1、Embodied Referring Expression (REVERIE)任务是:给定一个高级指令,智能体通过在unseen的环境中导航来定位。2、以往的视觉语言导航方法利用提供的细粒度指令作为逐步导航指导,严格遵循指令,而REVERIE旨在根据high-level命令实现高效的目标导向探索。在这项工作中,我们提出了一种跨模态知识推理(CKR+)框架,该框架将先验知识作为决策指导来全面学习导航方案:(1)设计了一种机制,明确的分离指令和视觉观测中的与房间和物体相关的线索;(2)我们提出了一种。
2023-11-02 17:13:05
425
1
原创 《论文阅读》:Zero-Shot Object Goal Visual Navigation
目标导航是机器人执行现实世界任务的一项重要技能,旨在根据视觉观察引导机器人到达目标。学习有效的导航策略是一个复杂的问题,涉及机器人学的许多领域,例如视觉感知、场景理解和运动规划。虽然研究人员已经取得了有希望的对象导航结果[1]-[5],但这些方法主要关注在训练阶段预先定义的类,这些类被称为“可见类”。然而,在真实的家庭中,可能存在大量无法在训练阶段完全包含的对象类,这些对象类被称为“未见过的类”。
2023-10-20 22:07:28
728
1
原创 论文阅读《Task-Driven Graph Attention forHierarchical Relational Object Navigation》
大场景中的具身智能体往往需要导航到要找的物体。在本文的工作中,我们研究了对象导航任务 的变体:分层关系对象导航(HRON)。
2023-09-14 11:46:42
229
1
原创 论文阅读:《Exploring the Task Cooperation in Multi-goal Visual Navigation》(IJCAI 2019)
视觉导航是一种智能能力,它可以根据图像或视频输入来确定当前位置,然后规划通往某个目标位置的路径[Gupta et al.,2017;由于摄像机视角的限制,由于环境是部分可观察的,仅用视觉输入很难进行导航。受最近深度强化学习在跟踪[Zhang et al.,2018]、Atari Games[Mnih et al.,2015]和计算机围棋[Silver et al.,2016]等多个领域的成功启发,早期努力训练一个智能体学习导航到特定目标的技能[Mirowski et al.,2016;
2023-08-03 15:19:55
147
原创 论文阅读:Visual Object Search by Learning Spatial Context(RA-L2020)
目标驱动的视觉导航和对象搜索是一种基于第一人称视觉信息在环境中学习导航Agent到达特定目标位置的新方法。与以前的导航范例(如使用SLAM的范例)不同,这种方法不需要环境地图。目标驱动的视觉导航任务的挑战之一是对未知场景的泛化,因为它依赖于场景图像中的视觉特征来产生动作,而视觉特征容易受到外观变化的影响。事实上,该领域中的大多数方法对每个场景[1]、[3]或每个场景类型[2]例如厨房或起居室使用特定的策略网络,并不完全适用于未见过的场景。
2023-08-02 15:28:03
287
原创 论文阅读:《Improving Target-driven Visual Navigation withAttention on 3D Spatial Relationships》
从被要求“打开咖啡机下的橱柜,给我一个里面的杯子”的家庭服务机器人,到帮助视障佩戴者在陌生地铁中导航的设备,下一代人工智能助手需要展示广泛的能力。为了发展这些技能,许多研究人员认为最有效的方法是专注于具身AI任务,如视觉导航[1]、指令遵循[2]、具身问答(EQA)[3]。这些任务使用交互式环境而不是依赖于静态数据集(如ImageNet[4],COCO[5],VQA[6])来支持系统的训练。与基于互联网图像数据集的任务相比,具身AI任务需要主动感知、长期规划和从交互中学习的特殊技能。
2023-07-25 16:40:47
361
原创 论文笔记:《On Evaluation of Embodied Navigation Agents》
三维环境中的导航是在物理世界中运行的移动智能系统的必备能力。包括人类在内的动物能够优雅而熟练地穿越杂乱的动态环境,以追求远距离的目标。动物可以在未见过的环境中有效而有意识地导航,在这个过程中建立这些环境的内部表征。这种内部表征对人工智能至关重要。早些时候导航有些支离破碎。有大量的工作在运动规划、无碰撞路径在工作区或配置空间要求,给定一个几何模型的环境[18]。后续路径跟踪和底层控制通常假设完美的本地化。运动规划方法往往依赖于高质量的环境的几何模型,限制了这些方法的使用效果。
2023-07-19 16:21:06
224
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人