
文章主要内容总结
本文聚焦于提升3D多模态大语言模型(3D MLLMs)在点云感知中的空间推理能力,针对现有方法在处理复杂指令时的不足,提出了相关推理分割(Relevant Reasoning Segmentation, R²S)框架和3D ReasonSeg数据集。
- 研究背景:现有3D MLLMs虽能通过视觉-语言对齐实现3D点云感知,但在处理需精确空间推理的复杂指令时仍存在挑战,且现有数据集难以支撑复杂推理任务的训练与评估。
- R²S框架:模仿人类认知过程,将空间推理分解为两个阶段:
- 推理先验学习(Reasoning Prior Learning):识别与目标相关的元素,生成相关物体的分割掩码作为视觉先验;
- 先验引导细化(Prior-guided Refinement):利用这些视觉先验优化模型对指令的处理,提升目标定位精度。
- 3D ReasonSeg数据集:包含25,185个训练样本和3,966个验证样本,专注于物体功能、视觉属性和空间关系的标注,经人工验证确保质量,用于增强和评估3D MLLMs的空间推理能力。
R²S框架与3D ReasonSeg数据集提升3D点云推理能力

订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



