转载：引入目标之间的先验关系提升目标检测器性能Relational Prior Knowledge Graphs for Detection and Instance

最新推荐文章于 2025-07-29 21:31:10 发布

wuling129

最新推荐文章于 2025-07-29 21:31:10 发布

阅读量219

点赞数

分类专栏：图像处理+python+深度学习文章标签：知识图谱人工智能

图像处理+python+深度学习专栏收录该内容

132 篇文章

订阅专栏

本文介绍了一种名为RP-FEM的方法，通过在目标检测中利用关系先验知识，构建RelationalPriorKnowledgeGraph(RPKG)，以提升性能。该模型结合了多头注意和GraphTransformer，能有效滤除不合理检测框并减少重复。实验结果展示了RP-FEM在COCO数据集上的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文标题：Relational Prior Knowledge Graphs for Detection and Instance Segmentation
机构：阿姆斯特丹大学、TomTom
论文地址：https://arxiv.org/pdf/2310.07573.pdf
开源代码（即将开源）：https://github.com/ozzyou/RP-FEM
关键词：目标检测、实例分割

1.动机

在认知心理学中，人类通过理解物体之间的关系来感知世界。通过认识物体之间的关联，建立对环境的心理表征，对可能的行为进行推断，实现对这些行为结果的预测。从简单的日常活动（如过马路）到更复杂的任务（如理解自然语言、计划和决策）。

同样，在计算机视觉领域，物体之间的关系已经成为一个重要的研究方向。利用对象间的关系，计算机视觉系统可以增强图像中目标检测和分割的能力，推理它们之间的关系，构建更复杂的应用程序实现对视觉信息的深入理解。

作者提出通过建模目标之间的关系增强目标检测性能。作者引入了一个基于关系先验的特征增强模型（Relational Prior-based Feature Enhancement Model，简称RP-FEM），使用了多头注意机制来选择相关的先验，使用graph transformer model对其进行聚合。图像被表示为场景图（scene graph），使用图节点表示proposal的特征，目标关系的先验知识构成图的边。使用RPKG（Relational Prior Knowledge Graph）描述目标之间的关系，RPKG可从场景图数据集Visual Genome中获取。

将RP-FEM应用于目标检测中，可以从目标关系的角度滤除不合理的目标检测框，还能减少小目标的重复检测框。

2.方法

总体结构如下：

Relation Head通过关注场景图中的相邻节点（表示proposal）和RPKG（表示类嵌入）的相邻节点，用关系先验知识更新场景图中的每条边。原始proposal特征和预测的边输入 Graph Transformer，得到更新的场景图，从更新后的场景图中预测box和mask。

2.1 Relational Prior Knowledge Graph（RPKG）

作者利用Visual Genome数据集构造了3个不同的Relational Prior Knowledge Graph（RPKG）。将训练好的Faster R-CNN模型中倒数第二层的特征（记作）作为RPKG的节点，使用Visual Genome数据集中的场景图标注统计目标之间的关系，将其作为RPKG的边。作者统计了3种目标之间的关系：

（1）共同出现（Co-occurrence）：两个类别的目标在整个数据集中一起出现的频率。

（2）相对位置（Relative Orientation）：两个类别目标的相对位置，比如A在B的中间、上侧、下侧、左侧、右侧。可以存在多个选项同时出现，比如A在B的左侧和上侧。

（3）相对距离（Relative Distance）：图片中同时出现的两个目标之间的平均距离和平均标准差。

综上可构造RPKG，记作R=<D,K>，其中K $\in R^{C*C*R}$ ，R的值取决于构造RPKG时要使用的关系。

当Visual Genome数据集中的类别与COCO数据集类别名字不一致时，需要手动构造两个数据集中类别名的映射关系。

2.2 使用RPKG增强特征

利用RPKG中的先验知识增强特征，基于潜在目标的特征，从中检索目标的关联信息，使得关联信息在proposal特征空间中表达。

首先构造场景图S=<P,E>，使用proposal特征表示节点，即 $\left \{ P_{i},\jmath ,P_{n} \right \} = P \in R^{N*F_{p}}$ ，图的边表示为 $\left \{ e_{ii}, e_{ij},\cdots ,e_{NN} \right \} = E \in R^{N*N*F_{e}}$ 。

然后使用P和R的值计算E，即计算S中节点特征对和R中节点特征对的相似度。根据两个相邻节点之间的相似度进行加权，对R中的边值进行聚合。使用R（修正：是S）的每对儿节点 $\left [ p_{i},p_{j} \right ]\in P$ 作为query，R中所有的节点 $\left [ d_{u},d_{v} \right ]\in R$ 作为key，计算注意力系数 $\alpha _{\left ( ij \right ),\left ( uv \right )}$ 。

2.3 上下文更新

在得到了场景图S的边的值E以后，作者使用multi-layered Graph Transformer实现上下文更新操作。上下文更新确保S中的节点特征在图中聚合，为每个节点提供更多关于整个场景的上下文以及与这种上下文中的其他节点之间基于先验知识的关系。

在此过程中，每个节点通过消息获得其相邻节点的信息，并通过边矩阵E进行加权，得到上下文感知的节点 $\left \{ Z_{i}, \cdots ,Z_{N} \right \} = Z \in R^{N*F_{Z}}$ 。表示如下：

2.4 mask的预测

经过上下文更新的L次迭代后，丢弃边矩阵，将最终第L个节点特征Z(L)与原始proposal特征 $P^{box}$ 进行concat得到用于box预测的输出特征 $O^{box}$ 。用于掩码预测的输出特征 $O^{mask}$ 通过包含前景目标的proposal特征 $P^{mask}$ 与Z(L)进行concat得到的。表示如下：