摘要
3D可及性检测是一个具有挑战性的问题,在各种机器人任务中有着广泛的应用。现有方法通常将检测范式制定为基于标签的语义分割任务。这种范式依赖于预定义的标签,缺乏理解复杂自然语言的能力,导致在开放世界场景中的泛化能力有限。为了解决这些限制,我们将传统的可及性检测范式重新定义为指令推理可及性分割(IRAS)任务。该任务旨在根据查询推理文本输出可及性掩码区域,避免了输入标签的固定类别。相应地,我们提出了3D-AffordanceLLM(3D-ADLLM),这是一个专为在3D开放场景中进行推理可及性检测而设计的框架。具体来说,3D-ADLLM将大语言模型(LLMs)引入3D可及性感知,并通过定制设计的解码器生成可及性掩码,从而实现开放世界的推理可及性检测。此外,鉴于用于训练大型模型的3D可及性数据集的稀缺性,我们试图从通用分割数据中提取知识并将其转移到可及性检测中。因此,我们提出了一种多阶段训练策略,该策略从一个新颖的预训练任务——指称对象部件分割(ROPS)开始。这个阶段旨在使模型具备在对象部件级别上的通用识别和分割能力。随后通过IRAS任务进行微调,3D-ADLLM获得了可及性检测的推理能力。总之,3D-ADLLM利用了大语言模型丰富的世界知识和人机交互推理能力,在开放词汇可及性检测任务上,平均交并比(mIoU)提高了约8%。