- 博客(262)
- 收藏
- 关注
原创 多模态大模型驱动的三维视觉理解技术前沿进展
本文全面综述了多模态大模型在三维视觉理解领域的最新进展,涵盖三维视觉数据表示、多模态大模型的发展、三维视觉表征方法、多模态大模型驱动的三维视觉理解任务、机器人三维视觉应用以及相关数据集,旨在促进该领域的深入研究与广泛应用。
2025-08-20 16:33:42
902
原创 哈工深无人机目标导航新基准!UAV-ON:开放世界空中智能体目标导向导航基准测试
本文提出针对开放世界环境中无人机目标导航的大规模基准测试UAV-ON,通过高保真环境和复杂的语义目标指令,展示了现有导航策略在语义推理、障碍物感知和目标定位方面的挑战!
2025-08-18 21:30:33
1293
原创 华东师范&上海AiLab&商汤!NaviMaster:学习适用于GUI和具身导航任务的统一策略
论文提出统一导航智能体框架NaviMaster,能够将图形用户界面导航和具身导航任务整合到一个单一的强化学习框架中,显著提升了模型在跨任务泛化、数据利用效率和空间定位能力方面的性能!
2025-08-17 20:07:26
1021
原创 西湖大学&新国立,多模态大语言模型能指引我回家吗?ReasonMap:基于交通地图的细粒度视觉推理基准研究
论文通过构建REASONMAP基准数据集,对15种多模态大模型在细粒度视觉理解和空间推理任务上的表现进行了全面评估,揭示了开源与闭源模型在推理能力上的差异,并强调了视觉输入在复杂视觉推理任务中的重要性!
2025-08-16 15:10:42
1016
原创 中山&清华:基于大模型的具身智能系统综述
本文综述了基于大模型的具身智能系统,介绍了大模型在具身智能中的感知与理解作用、控制层级、系统架构以及数据来源,并探讨了当前面临的挑战和未来发展方向!
2025-08-14 21:52:03
953
原创 上科大零样本目标检索赋能具身导航!osmAG-LLM:基于语义地图和大模型推理的零样本开放词汇目标导航
osmAG-LLM结合轻量级文本语义地图和大型语言模型推理,通过在线检测和动态导航,有效提高了在动态环境或未映射目标情况下的检索成功率和导航效率!
2025-08-14 21:08:53
969
原创 人大&BABEC&地平线高效率具身导航!Aux-Think:探索视觉语言导航中数据高效的推理策略
论文通过系统性研究VLN任务中的推理策略,提出了Aux-Think框架,解决了推理时间推理崩溃(IRC)问题,并通过R2R-CoT-320k数据集验证了其在数据效率和导航性能上的优势。
2025-08-12 20:03:26
1168
原创 MM DEMO-2025 | 北航新融合LLM与多模态交互的无人机导航系统!AirStar,智能空中助手等你来体验
论文介绍了无人机导航系统AirStar,通过将无人机的高机动性与大型语言模型(LLM)的认知能力相结合,实现了自然语言交互、复杂任务规划、地理空间与视觉语言导航以及多种智能交互功能。
2025-08-12 13:03:20
1299
原创 AAAI-2025 | 北理工具身导航新范式!FloNa:基于平面图引导的具身视觉导航
论文提出FloNa任务,将平面图引入到具身视觉导航中,并设计了FloDiff框架,通过扩散策略和显式定位模块解决了平面图与实际场景的空间不一致性和观察图像与平面图的对齐问题。
2025-08-11 22:02:18
925
原创 人大&地平线&新国立单目具身导航新范式!MonoDream:基于全景想象的单目视觉语言导航
论文提出轻量级单目VLN框架MonoDream,通过引入统一导航表示(UNR)和潜在全景想象(LPD)任务,使单目智能体能够从有限的单目输入中内化全局场景、深度和未来信息。
2025-08-10 17:42:22
1081
原创 中南&阿德莱德:基于递归视觉想象与自适应语言映射的视觉语言导航方法
本文提出基于递归视觉想象和自适应语言映射机制的视觉语言导航策略,使智能体能够从隐式场景表示中提取高级视觉先验并自适应对齐指令组件。
2025-08-10 17:37:48
954
原创 MM-2025 | 浙大&vivo需求驱动的具身导航!CogDDN:具有基于决策优化和双过程思维的认知驱动导航方法
论文提出了CogDDN框架,通过结合双过程思维(启发式和分析式决策)、链式推理(CoT)以及知识积累机制,实现了需求驱动导航任务中的高效决策和持续学习!
2025-08-09 19:21:11
1186
原创 中国电信&清华:大模型驱动的具身智能发展与挑战综述
论文系统地调研了大模型驱动的具身智能领域,从环境感知、任务规划、基础策略、奖励函数和数据生成五个方面分析了大模型如何赋能具身智能!
2025-08-08 20:45:43
1046
原创 ICCV-2025 | 同济&上海AILab跨越虚拟与现实的具身导航!VLN-PE:重审视觉语言导航中的具身差距
论文提出物理级VLN平台VLN-PE,支持多种机器人类型(人形、四足和轮式),通过系统性地评估多种VLN方法在物理环境中的表现,揭示了现有模型在物理部署中的局限性!
2025-08-08 20:42:05
1226
原创 基础模型驱动的机器人技术最新全面综述
本文全面综述了基础模型在机器人领域的应用进展,分析了其在仿真设计、开放世界执行、仿真到现实迁移和可适应性机器人系统中的优势与挑战!
2025-08-07 17:46:16
935
原创 中山大学无人机导航最新突破!SA-GCS:基于语义感知高斯课程调度的无人机视觉语言导航
论文提出的SA-GCS框架为无人机视觉语言导航任务提供了一种高效且鲁棒的训练范式!
2025-08-06 20:57:08
998
原创 东北大学“进化论”赋能具身导航!SE-VLN:基于多模态大模型的自进化视觉语言导航框架
论文提出基于多模态大语言模型(MLLM)的自进化视觉语言导航(VLN)框架(SE-VLN)通过模拟自然智能体的进化过程,实现了无需大规模标注数据训练的自进化能力。
2025-08-05 20:51:02
845
原创 CoRL-2025 | 北大“如影随形”具身导航智能体!TrackVLA:复杂自然环境中的具身视觉跟踪
TrackVLA 是一个为具身视觉跟踪任务设计的视觉 - 语言 - 行动(VLA)模型,通过在大规模具身视觉跟踪数据和开放世界识别数据上联合训练,实现了视觉跟踪和目标识别之间的协同作用!
2025-08-05 20:48:30
1843
原创 清华大学空中智能体六自由度空间的生成与控制!AirScape:运动可控的三维空间生成式世界模型
本文提出首个针对六自由度空中智能体的生成式世界模型AirScape,能够基于当前视觉输入和运动意图预测未来的观察序列!
2025-08-03 15:35:56
718
原创 中科院自动化所机器人视觉中的多模态融合与视觉语言模型综述
论文全面综述了多模态融合和视觉-语言模型在机器人视觉中的应用,分析了这些技术在关键任务中的进展、挑战及未来发展方向,为推动机器人在复杂环境中的自主感知与交互提供了重要参考!
2025-08-02 17:13:42
1238
原创 RAL-2025 | “藏宝图”驱动的具身导航!HAM-Nav:基于手绘地图引导的机器人导航
HAM-Nav 架构利用预训练的视觉语言模型,能够在不同的环境和手绘风格中进行鲁棒的机器人导航,无需手绘地图在度量上精确!
2025-08-01 18:12:49
589
原创 三维开放场景图助力机器人自主导航!Point2Graph:点云驱动的三维开放词汇场景图端到端机器人导航
论文提出端到端点云驱动的三维开放词汇场景图生成框架Point2Graph,该框架无需依赖对齐的RGB-D图像,能够直接从三维点云数据中生成场景图,显著提升了机器人在复杂室内环境中导航和理解场景的能力!
2025-07-31 19:27:11
869
原创 多伦多大学跨形态融合具身导航!X-Nav:面向移动机器人的端到端跨形态导航学习方法
X-Nav 框架通过两个阶段的学习,成功实现了跨形态导航,能够在多种机器人实体上进行零样本泛化,并在模拟和真实世界环境中表现出良好的导航性能。
2025-07-30 19:51:44
1059
2
原创 室内环境具身智能语义建图研究综述:进展、挑战与未来方向
论文全面综述了室内环境中智能体(如机器人)的语义建图技术,分析了当前的进展、面临的挑战,并提出了未来的研究方向!
2025-07-29 19:35:27
1469
原创 TMM-2025 | 记忆与观察融合的具身导航!MossVLN:连续视觉语言导航中的记忆-观察协同系统
MossVLN 系统通过将观察驱动的航点预测机制与记忆 - 观察规划策略相结合,在连续和离散环境中都显著提高了视觉语言导航系统的性能!
2025-07-28 19:01:39
728
原创 清华大学具身智能多传感器融合感知综述:背景、方法、挑战与展望
具身智能多传感器融合感知在具身AI中具有重要的作用,通过整合多种传感器数据,可以显著提高系统的感知能力和决策准确性!
2025-07-27 16:22:54
1626
原创 数字孪生映射探索驱动的具身导航!MorphoNavi:面向对象映射的空地机器人导航
论文提出利用单目相机的通用空地机器人映射方法MorphoNavi,能够在复杂环境中检测多种物体并估计其位置,无需针对特定环境进行微调!
2025-07-26 15:22:23
950
原创 上海AI Lab长时序感知具身导航!StreamVLN:基于慢快上下文建模的流式视觉语言导航
StreamVLN通过其混合上下文建模策略,在保持低延迟的同时,实现了长视频流上的高效、连贯且可扩展的动作生成,为实时、内存高效和长时序感知导航提供了一种新的解决方案。
2025-07-25 19:38:47
901
原创 IROS-2025 | OIKG:基于观察-图交互与关键细节引导的视觉语言导航
论文提出视觉语言导航框架OIKG,通过解耦视觉与角度信息、增强导航空间中的边表示以及动态提取指令中的细粒度位置和物体信息,显著提高了导航精度和成功率!
2025-07-24 19:03:27
551
原创 清华大学层次化空间记忆助力具身导航!Mem4Nav:基于层次化空间认知长短期记忆系统的城市环境视觉语言导航
Mem4Nav通过将可逆记忆Token嵌入稀疏八叉树和语义拓扑图中,并结合短期记忆缓存,为VLN智能体提供了层次化的空间回忆和适应能力!
2025-07-23 20:49:58
902
原创 检索增强型生成助力无人机精准数学推理!RAG-UAV:基于RAG的复杂算术推理方法
RAG-UAV通过为大语言模型(LLMs)提供无人机领域的相关文献资料,显著提升了其在无人机特定场景下的数学推理能力!
2025-07-22 20:27:42
1082
原创 低成本、高泛化能力的无人机自主飞行!VLM-Nav:基于单目视觉与视觉语言模型的无地图无人机导航
VLM-Nav 通过结合深度估计和视觉语言模型,实现了在复杂未知环境中的高效自主导航!
2025-07-22 20:23:13
1511
原创 北航基于视觉的无人机定位与导航方法研究综述
本文系统性地梳理了基于视觉的无人机定位与导航技术,全面总结了该领域的研究现状和发展趋势,详细介绍了无人机视觉定位和导航的方法,并对这些方法在不同场景中的性能进行了定性和定量分析,同时探讨了该领域面临的挑战和未来研究方向。
2025-07-20 12:59:21
696
原创 南洋理工空中导航零样本迁移与泛化!VLFly:基于开放词汇目标理解的无人机视觉语言导航
VLFly通过将自然语言指令转化为结构化提示、匹配目标图像并生成连续控制指令,实现了在复杂环境中的零样本迁移和开放词汇目标理解,显著提升了无人机在模拟和现实环境中的导航性能!。
2025-07-19 16:00:26
1125
原创 慕尼黑工业大学具身机器人实时环境探索!FindAnything:基于开放词汇对象中心映射的机器人任意环境认知与导航
论文提出实时开放词汇对象中心的映射和探索框架FindAnything ,能够利用基础模型实现开放词汇引导的机器人探索!
2025-07-19 15:39:24
890
原创 复旦大学具身导航与操作的完美融合!MoMa-Kitchen:面向移动操作“最后一英里”导航基准数据集
MoMa-Kitchen 基准数据集通过提供大规模的、高质量的真实可供性地图,解决了移动操作中导航与操作之间的“最后一英里”挑战!
2025-07-17 19:55:13
1238
原创 ICMR-2025 | 杭电多智能体协作具身导航框架!MMCNav:基于MLLM的多智能体协作户外视觉语言导航
MMCNav通过多智能体协作,有效地解决了户外视觉语言导航任务中的复杂挑战!
2025-07-16 19:25:55
677
原创 AAAI-2025 | 同济大学面向嘈杂环境的音频视觉导航!BeDAViN:大规模音频-视觉数据集与多声源架构研究
BeDAViN 能够模拟不同声源配置的多样化场景,为在多声源环境中训练和测试智能体提供了支持。
2025-07-15 16:57:46
551
原创 波兰无人机具身导航基准测试与最新进展!FlySearch:探索视觉语言模型的探索能力
FlySearch通过在复杂三维环境中导航和寻找目标对象的任务,揭示了VLMs在探索能力上与人类基线相比存在显著差距!
2025-07-14 13:01:58
951
原创 清华&北大&西工大!具身导航最新综述
具身导航在近年来取得了显著进展,但在真实世界适用性、多智能体协作、生物启发神经架构以及安全和隐私等方面仍面临挑战。这些挑战需要进一步的研究来解决,以推动该领域的发展。
2025-07-13 13:41:41
1084
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人