
场景理解
文章平均质量分 91
视觉语言导航
Vision and language navigation!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
清华大学视觉空间智能新突破!Spatial-MLLM:提升多模态大语言模型的视觉空间智能能力
Spatial-MLLM通过结合语义2D编码器和结构感知的空间编码器,能够从纯2D视觉输入中有效实现空间理解和推理!原创 2025-06-10 20:35:25 · 838 阅读 · 0 评论 -
清华大学无人机城市空间导航探索!CityNavAgent:基于层次语义规划与全局记忆的空中视觉语言导航
CityNavAgent通过利用基础模型中的预训练知识和历史经验,有效解决了城市空间中的长期导航问题。原创 2025-05-20 17:23:05 · 941 阅读 · 0 评论 -
中山大学具身智能体高效探索与精准问答!Beyond the Destination:面向探索感知的具身问答新基准
本文提出了EXPRESS-Bench,这是迄今为止最大的用于评估EQA中探索和推理能力的数据集。提出了Fine-EQA框架,通过结合基于前沿和目标导向的导航提高了探索效率,同时引入了EAC评估指标来更好地评估探索和推理的一致性。原创 2025-05-19 13:02:20 · 733 阅读 · 0 评论 -
清华大学大模型驱动的跨尺度空间智能研究最新综述:具身智能体、智慧城市和地球科学领域的进展
本文通过回顾人类空间认知的研究,并结合LLMs在不同空间尺度(从具身智能到地球科学)中的应用,提供了一个全面的视角来理解空间智能。原创 2025-05-17 10:27:43 · 871 阅读 · 0 评论 -
兼顾长、短视频任务的无人机具身理解!AirVista-II:面向动态场景语义理解的无人机具身智能体系统
AirVista-II系统通过自适应关键帧提取方法,有效提高了无人机对复杂动态内容的感知和推理性能,增强了无人机在动态环境中的通用语义理解和推理能力。原创 2025-05-15 19:55:04 · 786 阅读 · 0 评论 -
昆士兰科技大学无人机自主导航探索新框架!UAVNav:GNSS拒止与视觉受限环境中的无人机导航与目标检测
本文提出的无人机框架能够在GNSS拒止和低能见度环境下自主导航和检测目标,展示了在复杂环境下的高效性和鲁棒性!原创 2025-05-14 13:41:53 · 1495 阅读 · 0 评论 -
武汉大学无人机视角下的多目标指代理解新基准!RefDrone:无人机场景指代表达理解数据集
论文提出了RefDrone基准数据集,专门用于无人机场景中的指代表达理解任务,并开发了RDAgent半自动化标注框架和NGDINO方法。原创 2025-05-13 19:48:49 · 908 阅读 · 0 评论 -
湖南大学3D场景问答最新综述!3D-SQA:3D场景问答助力具身智能场景理解
首篇对3D SQA领域进行系统性回顾的综述论文,涵盖了数据集、方法论和评估指标!原创 2025-05-13 19:45:55 · 987 阅读 · 0 评论 -
AAAI-2025 | 电子科大类比推理助力精准识别!SPAR:基于自提示类比推理的无人机目标探测技术
本文提出的SPAR方法通过自提示模块生成上下文感知提示来丰富特征表示,并基于分数图提示特征图中的目标性。原创 2025-05-11 11:52:19 · 853 阅读 · 0 评论 -
AAAI-2025 | 视觉定位的深度语义对齐!SSRVG:基于内容与结构信息的视觉定位
SSRVG通过建立细粒度的视觉和语言内容对齐以及利用语言结构信息调制定位过程,有效解决了现有方法中存在的语义对齐不充分和语言结构未充分利用的问题。实验结果表明,该方法在多个数据集上取得了显著的性能提升,证明了其在视觉定位任务中的有效性。原创 2025-05-11 11:51:01 · 648 阅读 · 0 评论 -
清华大学具身智能体空间推理新范式!Embodied-R:基于强化学习激活基础模型具身空间推理能力的协同框架
本文提出的Embodied-R框架通过协同大规模VLM和小规模LM,并结合强化学习,显著提高了模型在体现空间推理任务上的性能。未来的工作将集中在进一步优化计算资源、提升推理过程的可解释性和泛化能力,以及探索更多应用场景,以推动体现空间推理技术的发展。原创 2025-04-24 20:31:00 · 1303 阅读 · 0 评论 -
清华大学城市空间具身推理最新基准!Open3DVQA:全方位评估多模态模型在开放空间的空间推理能力
论文提出了Open3DVQA,一个用于评估多模态大模型在开放空间环境中综合空间推理能力的基准。评估结果表明,当前主流的多模态大模型在定量任务中存在局限性,特别是在定量关系推理和定量目标属性推理方面。通过微调多模态大模型,可以显著增强其空间推理能力。实验结果验证了所提出的训练数据集在提高视觉语言模型空间理解能力方面的有效性。原创 2025-03-22 12:53:06 · 652 阅读 · 0 评论 -
东大视觉链推理新范式!MageBench:桥梁多模态大模型与智能体的纽带
论文介绍了MageBench,一个以推理能力为导向的多模态智能体基准测试。结果表明,现有的LMMs在视觉思维链、跨模态长上下文理解、视觉想象和空间规划等方面存在显著不足。MageBench为未来的研究提供了有价值的见解和优化方向,并计划在未来增加更多环境以进一步探索智能体级别的技术细节。原创 2025-03-11 12:53:58 · 843 阅读 · 0 评论 -
解锁具身智能时空密码!LLaVA-ST:多模态大模型的细粒度时空理解
论文提出的LLaVA-ST是首个能够端到端处理细粒度时空多模态理解任务的MLLM。通过引入LAPE和STP模块,LLaVA-ST显著提高了模型在多个基准测试中的性能。实验结果表明,LLaVA-ST在处理时空交错任务时具有显著优势,并且在开放式视频问答和多选题视频问答任务中也表现出色。LLaVA-ST的提出为未来的MLLMs在细粒度多模态理解任务上的改进提供了重要的参考。原创 2025-03-04 13:11:14 · 654 阅读 · 0 评论 -
AAAI-2025 | 厦门大学GPS拒止下的无人机定位新基准!Game4Loc:基于游戏数据的无人机地理定位任务与基准测试
本文提出了一个新的基准和数据集GTA-UAV,用于无人机地理定位问题,特别是部分匹配对的情况。通过引入加权对比学习方法weighted-InfoNCE,提升了模型在部分匹配任务中的性能。实验结果表明,该数据集和方法在实际应用中具有显著的潜力和泛化能力。原创 2025-02-22 12:43:18 · 1275 阅读 · 0 评论 -
NeurIPS-2024 | 具身智能如何理解空间关系?SpatialRGPT:视觉语言模型中的具象空间推理
论文提出了SpatialRGPT,一种增强视觉语言模型(VLMs)空间推理能力的框架。通过集成区域表示模块和灵活的深度信息插件,SpatialRGPT使VLMs能够在局部和全局范围内有效感知空间排列。原创 2025-02-21 10:23:24 · 1206 阅读 · 0 评论 -
具身思想链协助提升空间推理能力!SpatialCoT:基于坐标对齐和思想链的具身任务规划
论文提出了SpatialCoT,通过空间坐标双向对齐和空间定位思维链两个阶段的训练,显著增强了VLMs在具身任务规划中的空间推理能力。实验结果表明,SpatialCoT在导航和操作任务中均优于SOTA方法,特别是在处理复杂环境和多步推理任务时表现出色。原创 2025-02-07 08:33:10 · 828 阅读 · 0 评论 -
ACL-2024 | 具身智能空间理解能力几何?EmbSpatial-Bench:视觉语言大模型在具身任务中空间理解水平测试基准
论文提出了EmbSpatial-Bench和EmbSpatial-SFT,用于评估和改进LVLMs在具身任务中的空间理解能力。实验结果表明,当前典型的LVLMs在具身场景中的空间理解能力较弱,但通过指令微调可以显著提高其性能。该研究为LVLMs在具身AI系统中的应用提供了重要的基准和数据支持。原创 2025-01-28 10:30:44 · 719 阅读 · 0 评论