一、文章主要内容总结
本文提出了一种名为SpatialPrompting的全新框架,旨在借助现成的多模态大型语言模型(LLM)的推理能力,实现三维环境下的零样本空间推理。该框架的核心在于关键帧驱动的提示生成策略,具体包含以下两个关键环节:
- 关键帧提取:从图像序列中挑选出具有代表性的关键帧。在这个过程中,综合运用视觉-语言相似性、马氏距离、视野(FOV)以及图像清晰度等多种指标,以确保所选关键帧既能涵盖丰富的空间信息,又能避免冗余。
- 提示生成:将提取出的关键帧与对应的相机位姿数据相结合,形成结构化的提示输入到多模态LLM中。通过这种方式,引导模型对复杂的三维空间关系进行推理,例如物体的位置、空间布局以及相对方向等。
在实验环节,研究人员在ScanQA和SQA3D等基准数据集上对该框架进行了验证。实验结果表明,SpatialPrompting无需依赖专门的三维输入或精细调优,便能够取得与当前最先进方法(SOTA)相当甚至更优的性能,充分展现