摘要
3D可及性检测是一个具有挑战性的问题,在各种机器人任务中有着广泛的应用。现有方法通常将检测范式制定为基于标签的语义分割任务。这种范式依赖于预定义的标签,缺乏理解复杂自然语言的能力,导致在开放世界场景中的泛化能力有限。为了解决这些限制,我们将传统的可及性检测范式重新定义为指令推理可及性分割(IRAS)任务。该任务旨在根据查询推理文本输出可及性掩码区域,避免了输入标签的固定类别。相应地,我们提出了3D-AffordanceLLM(3D-ADLLM),这是一个专为在3D开放场景中进行推理可及性检测而设计的框架。具体来说,3D-ADLLM将大语言模型(LLMs)引入3D可及性感知,并通过定制设计的解码器生成可及性掩码,从而实现开放世界的推理可及性检测。此外,鉴于用于训练大型模型的3D可及性数据集的稀缺性,我们试图从通用分割数据中提取知识并将其转移到可及性检测中。因此,我们提出了一种多阶段训练策略,该策略从一个新颖的预训练任务——指称对象部件分割(ROPS)开始。这个阶段旨在使模型具备在对象部件级别上的通用识别和分割能力。随后通过IRAS任务进行微调,3D-ADLLM获得了可及性检测的推理能力。总之,3D-ADLLM利用了大语言模型丰富的世界知识和人机交互推理能力,在开放词汇可及性检测任务上,平均交并比(mIoU)提高了约8%。
引言
机器人正越来越多地融入我们日常生活的各个方面(Matheson等人,2019)。在我们朝着开发下一代更先进的机器人代理迈进的过程中,使机器人能够在上下文中理解自然语言指令,并感知周围环境中与任务相关的信息至关重要。这项技能对于在非结构化环境(如家庭)中的无缝交互尤为重要,在这种环境中,对各种情况的适应性至关重要。具体来说,机器
订阅专栏 解锁全文
497

被折叠的 条评论
为什么被折叠?



