3D-AFFORDANCELLM: HARNESSING LARGE LANGUAGE MODELS FOR OPEN-VOCABULARY AFFORDANCE DETECTION

最新推荐文章于 2025-12-13 15:23:21 发布

UnknownBody

最新推荐文章于 2025-12-13 15:23:21 发布

阅读量375

点赞数 5

CC 4.0 BY-SA版权

分类专栏： LLM Daily 文章标签： 3d 语言模型人工智能

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/146122645

LLM Daily 专栏收录该内容

1732 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

摘要

3D可及性检测是一个具有挑战性的问题，在各种机器人任务中有着广泛的应用。现有方法通常将检测范式制定为基于标签的语义分割任务。这种范式依赖于预定义的标签，缺乏理解复杂自然语言的能力，导致在开放世界场景中的泛化能力有限。为了解决这些限制，我们将传统的可及性检测范式重新定义为指令推理可及性分割（IRAS）任务。该任务旨在根据查询推理文本输出可及性掩码区域，避免了输入标签的固定类别。相应地，我们提出了3D-AffordanceLLM（3D-ADLLM），这是一个专为在3D开放场景中进行推理可及性检测而设计的框架。具体来说，3D-ADLLM将大语言模型（LLMs）引入3D可及性感知，并通过定制设计的解码器生成可及性掩码，从而实现开放世界的推理可及性检测。此外，鉴于用于训练大型模型的3D可及性数据集的稀缺性，我们试图从通用分割数据中提取知识并将其转移到可及性检测中。因此，我们提出了一种多阶段训练策略，该策略从一个新颖的预训练任务——指称对象部件分割（ROPS）开始。这个阶段旨在使模型具备在对象部件级别上的通用识别和分割能力。随后通过IRAS任务进行微调，3D-ADLLM获得了可及性检测的推理能力。总之，3D-ADLLM利用了大语言模型丰富的世界知识和人机交互推理能力，在开放词汇可及性检测任务上，平均交并比（mIoU）提高了约8%。

引言

机器人正越来越多地融入我们日常生活的各个方面（Matheson等人，2019）。在我们朝着开发下一代更先进的机器人代理迈进的过程中，使机器人能够在上下文中理解自然语言指令，并感知周围环境中与任务相关的信息至关重要。这项技能对于在非结构化环境（如家庭）中的无缝交互尤为重要，在这种环境中，对各种情况的适应性至关重要。具体来说，机器