
目标导航
文章平均质量分 91
视觉语言导航
Vision and language navigation!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
上交具身机器人的视觉运动导航!HTSCN:融合空间记忆与语义推理认知的导航策略
论文提出的HTSCN框架通过将空间记忆和语义推理能力无缝集成到一个端到端的系统中,显著提升了机器人在未知环境中的导航性能和路径效率。原创 2025-05-28 23:03:44 · 1000 阅读 · 0 评论 -
南航无人机大规模户外环境视觉导航框架!SM-CERL:基于语义地图与认知逃逸强化学习的无人机户外视觉导航
本文提出的SM-CERL框架通过构建语义地图和认知逃逸机制,有效解决了无人机在大规模户外环境中视觉导航中的部分可观察性和局部最优陷阱问题,显著提升了导航性能。原创 2025-05-17 10:21:29 · 1869 阅读 · 0 评论 -
国防科大&清华城市空间无人机视觉搜索最新基准!PRPSearcher:多模态大模型驱动的无人机自主目标探索
本研究提出了城市环境中无人机自主视觉目标搜索(AVOS)任务,并引入了首个专门的基准数据集 CityAVOS,为标准化评估提供了基础。同时,提出了 PRPSearcher 方法,通过模拟人类的感知、推理和规划过程,显著提高了无人机在复杂城市环境中的目标搜索性能。原创 2025-05-14 14:38:24 · 940 阅读 · 0 评论 -
纽约大学具身智能体在城市空间中的视觉导航之旅!CityWalker:从海量网络视频中学习城市导航
CityWalker通过利用大规模网络视频数据,显著提升了城市导航的性能,证明了数据扩展对于开发鲁棒导航策略的潜力。原创 2025-04-22 20:18:03 · 714 阅读 · 0 评论 -
ICPR-2025 | 让机器人在未知环境中 “听懂” 指令精准导航!VLTNet:基于视觉语言推理的零样本目标导航
论文指出,尽管 VLTNet 在 L-ZSON 任务中取得了显著的性能提升,但仍存在一些局限性,例如在处理某些复杂的自然语言指令时可能还需要进一步优化模型的推理过程和语义理解能力。原创 2025-04-18 20:31:00 · 869 阅读 · 0 评论 -
MIR-2025 | 多模态知识助力机器人导航:从复杂环境到高效路径规划
提出了基于多模态预训练知识的现实世界物体导航方法,通过在关键点进行视觉-语言跨模态对齐,有效地监督机器人导航。构建了室内物体数据库,并开发了多模态对齐概念知识(MACK(indoor)),以支持各种场景下的物体检索。原创 2025-04-17 20:44:45 · 744 阅读 · 0 评论 -
具身导航中的视觉语言注意力蒸馏!Vi-LAD:实现动态环境中的社会意识机器人导航
论文提出了Vi-LAD视觉语言注意力蒸馏方法,通过将大型VLM中的社会推理知识蒸馏到轻量级基于变换器的模型中,实现了社会合规且实时的机器人导航。实验结果表明,Vi-LAD在真实世界实验中显著优于现有的最先进方法,具有更高的成功率和更平滑的运动执行。未来的工作将探索多模态预训练模型、在线适应策略以及复杂环境中的长距离导航扩展。原创 2025-04-13 22:07:03 · 765 阅读 · 0 评论 -
ICRA-2025 | 视觉预测助力机器人自主导航!NavigateDiff:视觉引导的零样本导航助理
论文提出了NavigateDiff,一种新的导航框架,通过视觉预测器和混合融合策略,实现了在新环境中的零样本导航。NavigateDiff方法在模拟和真实世界环境中均表现出强大的鲁棒性和适应性,显著提高了导航性能和效率。原创 2025-04-11 19:37:10 · 1017 阅读 · 0 评论 -
基于视觉语言模型的机器人实时探索系统!ClipRover:移动机器人零样本视觉语言探索和目标发现
Rover Master是一个便携且可扩展的平台,专为2D导航任务设计。它的主要传感器和执行器组件包括一个单目RGB摄像头和一个2D激光雷达,用于外部感知。四个独立的轮子组件负责执行动作,每个轮子组件都是模块化的,自包含的,包括变速箱、无刷直流电机和悬挂系统。论文提出了ClipRover,一种用于未知环境中自主地面机器人同时探索和目标发现的新型导航管道。ClipRover利用VLMs的能力,实现了零样本推断和高效导航,仅需单目视觉,无需预先地图或目标特定信息。原创 2025-04-09 21:27:34 · 1183 阅读 · 0 评论 -
自动化所零样本导航新范式!WMNav:融合VLM和世界模型的室内目标导航
WMNav通过在世界模型框架中利用VLMs,提出了一种新的目标导航方向,显著提高了零样本目标导航的性能。在线好奇心图的引入减少了来回冗余移动,子任务分解模块为策略模块提供了更密集的反馈,两阶段动作提议器策略使导航更有目的性和高效。WMNav展示了在未知环境中进行目标导航的新优化方向,为具身机器人与环境互动开辟了新途径。原创 2025-04-07 20:55:27 · 775 阅读 · 0 评论 -
CVPR-2025 | 南洋理工基于图表示的具身导航统一框架!UniGoal:通用零样本目标导航方法
论文提出了UniGoal,一种无需训练或微调的通用零样本目标导向导航框架。 通过统一的图表示和多阶段探索策略,UniGoal能够在不同任务之间进行有效的推理和决策。 实验结果表明,UniGoal在三个广泛使用的数据集上均取得了最先进的零样本性能,甚至在某些情况下超过了为特定任务设计的零样本方法和需要训练或微调的通用方法。UniGoal在真实世界机器人平台上的部署也展示了其强大的泛化能力和应用价值。原创 2025-03-29 20:35:03 · 906 阅读 · 0 评论 -
清华大学大模型智能体自我认知与决策流程!自知、反思、规划:城市环境目标导航中的大模型智能体新范式
论文提出了用于目标导向城市导航的智能体工作流。该工作流包括微调的LLaVA模型进行空间感知、记忆模块用于综合和反思感知结果及检索的记忆,以及规划模块用于导航路线规划。论文展示了LLMs在城市导航任务中的应用潜力,并通过反思和规划模块显著提高了导航性能。原创 2025-03-23 20:34:06 · 1149 阅读 · 0 评论 -
具身导航赋能智能物流!OpenBench:智能物流最后一公里语义导航新基准
论文提出的OPEN系统结合了OSM和先进的基础模型,解决了可扩展和高效户外导航的挑战。通过使用OSM进行轻量级地图表示,并结合LLMs和VLMs进行全球定位、地图更新和门牌号码识别,系统克服了传统方法和基于学习方法的局限性。引入的新基准测试为评估自主配送系统提供了一个有效的框架。原创 2025-02-18 12:32:38 · 828 阅读 · 0 评论 -
具身智能体俯视全局的导航策略!TopV-Nav: 解锁多模态语言模型在零样本目标导航中的顶视空间推理潜力
论文提出了TopV-Nav,通过直接在全景图上使用LLMs进行推理,解锁了LLMs在全景视角下的空间推理潜力。提出的自适应视觉提示生成、动态地图缩放和目标引导导航机制显著提高了零样本目标导航的性能。实验结果表明,TopV-Nav在MP3D和HM3D基准上均取得了显著的性能提升,展示了其在复杂环境中的导航能力。原创 2025-01-27 11:20:56 · 1294 阅读 · 0 评论 -
无人机如何自主侦察?UEAVAD:基于视觉的无人机主动目标探测与导航数据集
论文发布了一个新的数据集UEVAVD,包含不同地形和遮挡条件下的多视角航拍图像。通过这些观测数据的组合,可以模拟无人机在轨迹上连续观测的过程。论文提出的IBE-MAP方法通过引入先验知识改进了原始MAP方法,使策略网络能够学习到更好的状态表示,从而提高了智能体在测试环境中的泛化能力。原创 2025-01-25 21:20:49 · 1681 阅读 · 0 评论 -
ICML-2024 | Voronoi图助力具身导航!VoroNav:基于大模型和Voronoi图的零样本目标导航
零样本目标对象导航(ZSON)任务要求智能体能够在没有针对特定类别的预先训练的情况下,导航到一个全新类别的目标对象。智能体从指定的起始点开始,根据观察到的RGB-D图像和实时位姿进行决策。原创 2025-01-14 08:49:45 · 977 阅读 · 0 评论