
具身智能
文章平均质量分 89
视觉语言导航
Vision and language navigation!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
社交机器人具身导航新范式!AutoSpatial:通过高效空间推理学习实现机器人视觉语言推理和社交导航
AutoSpatial通过结合自动标注数据和少量手动标注,显著提升了VLM在社会导航中的空间推理能力。原创 2025-06-12 19:32:21 · 416 阅读 · 0 评论 -
HRI-2025 | 大模型驱动的个性化可解释机器人人机交互研究
通过将用户过去的对话总结、机器人高级日志总结以及相关系统数据相结合,该基于LLMs的架构能够提供针对机器人决策和行为的个性化解释。在老年医院巡逻机器人的用例中展示了其可行性和有效性。原创 2025-06-04 20:08:50 · 1163 阅读 · 0 评论 -
上交解锁遥感图像中的空间理解能力!AirSpatialBot:面向细粒度车辆属性识别与检索的空间感知空中智能体
本文通过引入 AirSpatial 数据集和两阶段训练策略,成功开发了 AirSpatialBot,验证了其在细粒度车辆属性识别和检索任务中的有效性。原创 2025-05-30 13:28:47 · 1295 阅读 · 0 评论 -
香港城市大学低空经济下UAV导航通信!O-VIB:面向任务的空地协同视觉导航通信框架
本文提出了一种面向任务的视觉通信框架,适用于低空无人机在城市环境中的导航定位。通过设计正交约束的O-VIB编码器和边缘协同推理机制,实现在极低带宽下的高精度导航,并在无人机和边缘计算节点的实物平台验证了算法在降低传输时延和定位精度提升方面的有效性。原创 2025-05-30 13:27:40 · 717 阅读 · 0 评论 -
清华大学无人机城市空间导航探索!CityNavAgent:基于层次语义规划与全局记忆的空中视觉语言导航
CityNavAgent通过利用基础模型中的预训练知识和历史经验,有效解决了城市空间中的长期导航问题。原创 2025-05-20 17:23:05 · 941 阅读 · 0 评论 -
中山大学具身智能体高效探索与精准问答!Beyond the Destination:面向探索感知的具身问答新基准
本文提出了EXPRESS-Bench,这是迄今为止最大的用于评估EQA中探索和推理能力的数据集。提出了Fine-EQA框架,通过结合基于前沿和目标导向的导航提高了探索效率,同时引入了EAC评估指标来更好地评估探索和推理的一致性。原创 2025-05-19 13:02:20 · 733 阅读 · 0 评论 -
中科院自动化研究所通用空中任务无人机!基于大模型的通用任务执行与自主飞行
提出了一种针对无人机(UAV)的硬件-软件协同设计框架,通过边缘计算平台实现了14B参数的大型语言模型(LLM)的高效推理(5-6 tokens/second),同时保持了220W的峰值功耗。原创 2025-05-18 11:22:48 · 790 阅读 · 0 评论 -
清华大学大模型驱动的跨尺度空间智能研究最新综述:具身智能体、智慧城市和地球科学领域的进展
本文通过回顾人类空间认知的研究,并结合LLMs在不同空间尺度(从具身智能到地球科学)中的应用,提供了一个全面的视角来理解空间智能。原创 2025-05-17 10:27:43 · 871 阅读 · 0 评论 -
南航无人机大规模户外环境视觉导航框架!SM-CERL:基于语义地图与认知逃逸强化学习的无人机户外视觉导航
本文提出的SM-CERL框架通过构建语义地图和认知逃逸机制,有效解决了无人机在大规模户外环境中视觉导航中的部分可观察性和局部最优陷阱问题,显著提升了导航性能。原创 2025-05-17 10:21:29 · 1869 阅读 · 0 评论 -
兼顾长、短视频任务的无人机具身理解!AirVista-II:面向动态场景语义理解的无人机具身智能体系统
AirVista-II系统通过自适应关键帧提取方法,有效提高了无人机对复杂动态内容的感知和推理性能,增强了无人机在动态环境中的通用语义理解和推理能力。原创 2025-05-15 19:55:04 · 786 阅读 · 0 评论 -
国防科大&清华城市空间无人机视觉搜索最新基准!PRPSearcher:多模态大模型驱动的无人机自主目标探索
本研究提出了城市环境中无人机自主视觉目标搜索(AVOS)任务,并引入了首个专门的基准数据集 CityAVOS,为标准化评估提供了基础。同时,提出了 PRPSearcher 方法,通过模拟人类的感知、推理和规划过程,显著提高了无人机在复杂城市环境中的目标搜索性能。原创 2025-05-14 14:38:24 · 940 阅读 · 0 评论 -
昆士兰科技大学无人机自主导航探索新框架!UAVNav:GNSS拒止与视觉受限环境中的无人机导航与目标检测
本文提出的无人机框架能够在GNSS拒止和低能见度环境下自主导航和检测目标,展示了在复杂环境下的高效性和鲁棒性!原创 2025-05-14 13:41:53 · 1495 阅读 · 0 评论 -
武汉大学无人机视角下的多目标指代理解新基准!RefDrone:无人机场景指代表达理解数据集
论文提出了RefDrone基准数据集,专门用于无人机场景中的指代表达理解任务,并开发了RDAgent半自动化标注框架和NGDINO方法。原创 2025-05-13 19:48:49 · 908 阅读 · 0 评论 -
湖南大学3D场景问答最新综述!3D-SQA:3D场景问答助力具身智能场景理解
首篇对3D SQA领域进行系统性回顾的综述论文,涵盖了数据集、方法论和评估指标!原创 2025-05-13 19:45:55 · 987 阅读 · 0 评论 -
中科院无人机导航物流配送的智能变革!LogisticsVLN:基于无人机视觉语言导航的低空终端配送系统
论文提出了LogisticsVLN系统,这是一个可扩展的基于无人机的终端配送系统,利用基础模型的力量,无需针对特定任务的训练或预先构建的地图。构建的VLD数据集涵盖了CARLA模拟器中的多样化建筑类型、配送目标和指令风格,为评估该领域提供了有力支持。原创 2025-05-12 18:38:44 · 1154 阅读 · 0 评论 -
AAAI-2025 | 中科院无人机导航新突破!FELA:基于细粒度对齐的无人机视觉对话导航
论文通过构建FG-AVDN数据集和提出FELA方法,显式地学习实体与地标之间的对齐,实验结果证明了该方法的有效性!原创 2025-05-12 18:36:44 · 1136 阅读 · 0 评论 -
AAAI-2025 | 电子科大类比推理助力精准识别!SPAR:基于自提示类比推理的无人机目标探测技术
本文提出的SPAR方法通过自提示模块生成上下文感知提示来丰富特征表示,并基于分数图提示特征图中的目标性。原创 2025-05-11 11:52:19 · 853 阅读 · 0 评论 -
AAAI-2025 | 视觉定位的深度语义对齐!SSRVG:基于内容与结构信息的视觉定位
SSRVG通过建立细粒度的视觉和语言内容对齐以及利用语言结构信息调制定位过程,有效解决了现有方法中存在的语义对齐不充分和语言结构未充分利用的问题。实验结果表明,该方法在多个数据集上取得了显著的性能提升,证明了其在视觉定位任务中的有效性。原创 2025-05-11 11:51:01 · 648 阅读 · 0 评论 -
土耳其Koç大学指令驱动的智能综述,从文本表达到任务执行的系统探索
本文通过系统性综述,全面分析了复杂指令文本的研究现状,揭示了该领域的发展趋势和挑战。研究结果表明,虽然在复杂指令理解方面已经取得了一些进展,但在数据表示、模型性能、多模态数据利用等方面仍存在许多问题需要解决。原创 2025-05-10 11:44:32 · 1092 阅读 · 0 评论 -
复杂地形越野机器人导航新突破!VERTIFORMER:数据高效多任务Transformer助力越野机器人移动导航
VERTIFORMER作为一种数据高效多任务Transformer,能够仅使用有限的训练数据(一小时)来学习复杂的车辆-地形运动学交互,并在多种越野移动任务上取得了优异的性能,同时提高了模型的泛化能力和对未知环境的适应性!原创 2025-04-25 17:26:47 · 889 阅读 · 0 评论 -
清华大学具身智能体空间推理新范式!Embodied-R:基于强化学习激活基础模型具身空间推理能力的协同框架
本文提出的Embodied-R框架通过协同大规模VLM和小规模LM,并结合强化学习,显著提高了模型在体现空间推理任务上的性能。未来的工作将集中在进一步优化计算资源、提升推理过程的可解释性和泛化能力,以及探索更多应用场景,以推动体现空间推理技术的发展。原创 2025-04-24 20:31:00 · 1303 阅读 · 0 评论 -
纽约大学具身智能体在城市空间中的视觉导航之旅!CityWalker:从海量网络视频中学习城市导航
CityWalker通过利用大规模网络视频数据,显著提升了城市导航的性能,证明了数据扩展对于开发鲁棒导航策略的潜力。原创 2025-04-22 20:18:03 · 714 阅读 · 0 评论 -
北邮LLMs在导航中的应用与挑战!大模型在具身导航中的应用进展综述
论文全面回顾了LLMs在具身导航中的应用,分析了现有模型的优缺点,并比较了LLMs基模型与非LLMs模型。论文指出了LLMs在导航任务中的巨大潜力,但也强调了需要解决数据多样性、细粒度导航和空间推理能力等挑战。未来的研究方向包括动态路径优化、算法和模型架构的优化、与自动驾驶技术的融合以及多模态融合和优化算法的开发。总体而言,LLMs在具身导航中具有广阔的应用前景,但仍需克服现有的技术难题。原创 2025-04-12 20:41:18 · 1250 阅读 · 0 评论 -
北师大具身AI的虚拟世界扩展!UNREALZOO:为具身智能打造高逼真度的虚拟世界
论文提出了UnrealZoo,一个多样化的照片级虚拟世界合集,旨在推动具身AI研究的发展。通过提供高质量的虚拟环境和优化的编程接口,UnrealZoo能够支持高效的单智能体和多智能体系统交互。实验结果表明,多样化的训练环境对智能体的泛化能力和鲁棒性至关重要,而基于RL的方法在处理动态环境和社交互动方面表现出色。未来的工作将继续丰富虚拟世界的场景、实体和交互任务,推动具身AI在现实世界中的应用。原创 2025-04-07 20:49:26 · 939 阅读 · 0 评论 -
香港理工视觉语言模型赋能智能制造最新综述!基于视觉语言模型的人机协作在智能制造中的应用
论文系统地回顾了VLMs在智能制造中人机协作中的最新进展和应用,展示了其在任务规划、导航、操作和技能转移中的潜力。尽管VLMs在多个应用场景中表现出显著的优势,但仍面临实时处理、计算需求和动态环境处理等挑战。未来的研究方向包括提高VLMs的可扩展性、开发更自然和直观的人机交互机制,以及减少VLMs的数据和计算需求,以便在工业环境中大规模部署。通过解决这些挑战,VLMs有望在智能制造中发挥更大的作用,推动制造业的智能化和自动化。原创 2025-04-01 20:56:18 · 941 阅读 · 0 评论 -
港中文迈向安全的具身AI!EARBench:基础模型在具身AI任务规划中的物理风险评估
论文通过EARBench框架和EARDataset,首次系统地评估了EAI智能体在物理环境中的任务规划能力和风险意识。结果表明,当前基础模型在复杂场景下的风险识别能力不足,且简单的模型规模扩大并不能显著改善风险意识。提出的两种风险缓解策略在一定程度上提高了模型的安全性,但仍需进一步研究和开发更有效的安全增强方法。研究强调了在EAI发展中优先考虑安全性的重要性,并为未来的研究方向提供了有价值的见解。原创 2025-03-24 21:22:12 · 966 阅读 · 0 评论 -
清华大学大模型智能体自我认知与决策流程!自知、反思、规划:城市环境目标导航中的大模型智能体新范式
论文提出了用于目标导向城市导航的智能体工作流。该工作流包括微调的LLaVA模型进行空间感知、记忆模块用于综合和反思感知结果及检索的记忆,以及规划模块用于导航路线规划。论文展示了LLMs在城市导航任务中的应用潜力,并通过反思和规划模块显著提高了导航性能。原创 2025-03-23 20:34:06 · 1149 阅读 · 0 评论 -
清华大学城市空间具身推理最新基准!Open3DVQA:全方位评估多模态模型在开放空间的空间推理能力
论文提出了Open3DVQA,一个用于评估多模态大模型在开放空间环境中综合空间推理能力的基准。评估结果表明,当前主流的多模态大模型在定量任务中存在局限性,特别是在定量关系推理和定量目标属性推理方面。通过微调多模态大模型,可以显著增强其空间推理能力。实验结果验证了所提出的训练数据集在提高视觉语言模型空间理解能力方面的有效性。原创 2025-03-22 12:53:06 · 652 阅读 · 0 评论 -
华南理工大学AI进化之道全面综述!大模型智能体的终身学习技术路线
论文系统地总结了将终身学习能力整合到LLMs智能体中的方法和策略。通过感知、记忆和行动模块的协同作用,LLMs智能体能够在动态环境中不断适应和学习。论文的贡献包括提供了终身学习LLMs智能体的基础概述、深入分析了关键组件、讨论了实际应用和评估指标,并指出了未来的研究方向。该研究为开发具有终身学习能力的LLMs智能体提供了重要的理论基础和实践指导。原创 2025-03-20 12:57:15 · 644 阅读 · 0 评论 -
浙大具身AI的安全威胁与对策!面向鲁棒与安全的具身AI:漏洞与攻击综述
论文全面概述了具身AI系统面临的漏洞和攻击向量,特别是集成LVLMs和LLMs所面临的独特挑战。通过将漏洞分类为外生漏洞、内生漏洞和跨维度漏洞,系统分析了对抗性攻击范式,研究了针对LLMs和LVLMs的攻击向量,评估了感知、决策和任务规划中算法的鲁棒性挑战,并提出了增强具身AI系统安全和可靠性的针对性策略。该论文提供了一个综合框架,用于理解具身AI系统中漏洞与安全性之间的相互作用。原创 2025-03-17 16:20:18 · 1087 阅读 · 0 评论 -
双层BEV启发式具身导航路径规划新范式!Dual-BEV Nav:非结构化户外环境中的机器人导航
论文提出了一种结合局部和全局BEV规划的方法,从overhead地图中提取的全局BEV提示和实时局部BEV表示。增强了机器人在复杂户外环境中识别可通行性的能力,提高了路径规划的距离。未来的工作将计划结合无人机获取实时俯视视图,以进一步提升系统的鲁棒性和实时性能。原创 2025-03-16 15:59:53 · 926 阅读 · 0 评论 -
中科院自动化所人形机器人研究进展:全面综述与展望
论文全面综述了人形机器人的研究现状、进展和未来前景,强调了生物机制、结构设计、材料应用、驱动和控制方法以及能量利用等方面的挑战。通过集成仿生学、脑启发智能、力学和控制技术,人形机器人的未来发展前景广阔。论文为研究人员提供了宝贵的资源,推动了人形机器人在各个领域的持续发展和潜力挖掘。原创 2025-03-14 12:44:27 · 2327 阅读 · 0 评论 -
智能体在真实世界中的感知与行动融合最新综述!探索多模态具身大模型:发展,数据集与未来方向
论文系统地回顾了具身多模态大模型的发展,分析了基础大模型的技术进步及其在具身任务中的应用。通过分析多个数据集的影响,识别了高质量数据在模型性能提升中的重要性。尽管EMLMs在多个领域取得了显著进展,但仍需解决跨模态对齐、计算资源效率和泛化能力等挑战。未来的研究应关注跨模态预训练和自监督学习,以实现更高效、更灵活的具身智能系统。本文的研究为EMLMs的未来发展提供了有价值的参考和启示。原创 2025-03-12 12:50:26 · 1279 阅读 · 0 评论 -
东大视觉链推理新范式!MageBench:桥梁多模态大模型与智能体的纽带
论文介绍了MageBench,一个以推理能力为导向的多模态智能体基准测试。结果表明,现有的LMMs在视觉思维链、跨模态长上下文理解、视觉想象和空间规划等方面存在显著不足。MageBench为未来的研究提供了有价值的见解和优化方向,并计划在未来增加更多环境以进一步探索智能体级别的技术细节。原创 2025-03-11 12:53:58 · 843 阅读 · 0 评论 -
第三届具身智能国际挑战赛!Autonomous Grand Challenge 2025
2025年度具身智能国际挑战赛旨在通过全球合作促进具身智能和自动驾驶领域的发展。挑战赛道覆盖人形机器人世界模型、端到端自动驾驶、机器人操作三大领域前沿话题,奖金池总额达 10 万美元。原创 2025-03-08 12:20:38 · 956 阅读 · 0 评论 -
开放世界中具身AI的社会推理与规划!VIRTUAL COMMUNITY:基于生成模型的具身AI社交环境
论文介绍了Virtual Community,用于具身AI研究的生成性社交世界平台。通过结合大规模的真实地理空间数据和先进的生成模型,Virtual Community能够生成无限的场景和扎根的社交智能体社区。论文提出的路线规划和选举活动任务展示了该平台在开放世界和社会挑战中的潜力。原创 2025-03-05 13:08:52 · 589 阅读 · 0 评论 -
报告分享 | 哈工大赛尔实验室——大模型时代的具身智能
本报告详细介绍了大模型时代的具身智能,探讨了智能机器人的发展历程、技术挑战和未来发展方向。原创 2025-03-04 14:01:37 · 306 阅读 · 0 评论 -
解锁具身智能时空密码!LLaVA-ST:多模态大模型的细粒度时空理解
论文提出的LLaVA-ST是首个能够端到端处理细粒度时空多模态理解任务的MLLM。通过引入LAPE和STP模块,LLaVA-ST显著提高了模型在多个基准测试中的性能。实验结果表明,LLaVA-ST在处理时空交错任务时具有显著优势,并且在开放式视频问答和多选题视频问答任务中也表现出色。LLaVA-ST的提出为未来的MLLMs在细粒度多模态理解任务上的改进提供了重要的参考。原创 2025-03-04 13:11:14 · 654 阅读 · 0 评论 -
清华大学具身智能最新万字综述!形态、行动、感知与学习的协同效应
论文总结了具身智能的发展,特别是具身人工智能(EAI)的研究。提出了统一的具身智能框架,强调了形态学、动作、感知和学习之间的协同作用。未来的研究可以从这些组件的内在联系中受益。原创 2025-02-26 10:58:32 · 773 阅读 · 0 评论 -
NeurIPS-2024 | 具身智能如何理解空间关系?SpatialRGPT:视觉语言模型中的具象空间推理
论文提出了SpatialRGPT,一种增强视觉语言模型(VLMs)空间推理能力的框架。通过集成区域表示模块和灵活的深度信息插件,SpatialRGPT使VLMs能够在局部和全局范围内有效感知空间排列。原创 2025-02-21 10:23:24 · 1206 阅读 · 0 评论