论文阅读：Multiview Scene Graph-优快云博客

本文链接：https://blog.youkuaiyun.com/m0_48319749/article/details/144181519

4 Our Baseline: Attention Association MSG Generation

摘要

准确的场景表示对于追求空间智能至关重要，在此智能体能够稳健地重建并高效地理解 3D 场景。场景表示要么是度量式的，比如 3D 重建中的地标地图、目标检测中的 3D 边界框或占用预测中的体素网格；要么是拓扑式的，诸如 SLAM 中含闭环的位姿图或 SfM 中的可见性图。在这项工作中，我们拟从无姿态图像构建多视图场景图（MSG），用相互连接的地点和目标节点从拓扑层面表征场景。构建 MSG 的任务对现有表示学习方法颇具挑战，因其需从视野有限且视角变化可能较大的图像中，同时处理视觉地点识别、目标检测及目标关联问题。为评估应对此任务的各类方法，我们依据公开 3D 数据集开发了 MSG 数据集，并基于 MSG 边缘的交并比分数提出一种评估指标。此外，我们构建了一种新颖的基线方法，它依托主流预训练视觉模型，将视觉地点识别与目标关联整合进一个 Transformer 解码器架构。实验表明，与现有相关基线相比，我们的方法性能更优。所有代码与资源均在 https://ai4ce.github.io/MSG/开源。

1 Introduction

理解三维空间以及二维观测之间空间关系的能力，在移动智能体与现实物理世界的交互中起着核心作用。人类主要从视觉智能中获取此类空间智能[26, 45]。当人类处于未知环境中并试图从视觉观测来理解空间结构时，我们并非依据精确的米数和度数去感知与记忆场景。相反，我们基于视觉观测和常识从拓扑学角度构建认知地图[27, 48]。给定图像观测，我们能够通过寻找重叠的视觉线索，并从不同视角识别相同或不同的物体，来关联在同一地点拍摄的图像。这种从视觉感知建立对应关系的能力构成了我们空间记忆以及对世界认知表征的基础。我们能否赋予人工智能模型类似的空间智能呢？

受此问题启发，我们提出构建多视图场景图（MSG）的任务，以明确评估表征学习模型理解空间对应关系的能力。具体而言，如图 1 所示，给定从同一场景拍摄的一组无姿态 RGB 图像，该任务需要构建一个由图像和对象节点组成的地点加对象图，其中在相近位置拍摄的图像相互连接，并且同一对象在不同视图中的外观应作为一个对象节点关联在一起。

图 1：多视图场景图（MSG）。MSG 的任务以无姿态的 RGB 图像作为输入，并输出一个地点加对象图。该图包含地点-地点边和地点-对象边。相连的地点节点代表在同一地点拍摄的图像。从不同视角识别出的同一对象被关联并合并为一个节点，且与相应的地点节点相连。

总之，我们的贡献体现在两个方面：

我们提出将多视图场景图（MSG）生成作为评估空间智能的一项新任务。我们从公开可用的 3D 场景数据集中精心整理出一个数据集，并设计了评估指标以推动该任务。
我们为 MSG 任务设计了一种新颖的 Transformer 解码器架构。它联合学习地点和对象的嵌入表示，并依据嵌入距离确定图。实验证明了该模型相较于现有基线的有效性。

3 Multiview scene graph

3.1 Problem definition

Multiview Scene Graph 给定一组场景的未置图像 $X=\{x_i\}_{i=0,.....,T}$ ，我们将多视图场景图表示为场所对象图：

$G=\{P,O,E^{PP},E^{PO}\}$

其中， $P$ 和 $O$ 分别指代地点和对象节点的集合。对象节点集 $O$ 包含从 $X$ 中检测到的所有对象。从不同视角的不同图像中检测到的同一对象应始终被视为一个对象节点。对于地点的定义，我们遵循视觉定位与识别（VPR）文献中的定义，并令 $P=X$ 。这意味着每幅图像对应一个地点节点，如果两幅图像的拍摄仅存在很小的平移和旋转距离，它们就被视为在同一地点，并