文章主要内容总结
本文聚焦于提升3D多模态大语言模型(3D MLLMs)在点云感知中的空间推理能力,针对现有方法在处理复杂指令时的不足,提出了相关推理分割(Relevant Reasoning Segmentation, R²S)框架和3D ReasonSeg数据集。
- 研究背景:现有3D MLLMs虽能通过视觉-语言对齐实现3D点云感知,但在处理需精确空间推理的复杂指令时仍存在挑战,且现有数据集难以支撑复杂推理任务的训练与评估。
- R²S框架:模仿人类认知过程,将空间推理分解为两个阶段:
- 推理先验学习(Reasoning Prior Learning):识别与目标相关的元素,生成相关物体的分割掩码作为视觉先验;
- 先验引导细化(Prior-guided Refinement):利用这些视觉先验优化模型对指令的处理,提升目标定位精度。