Learning Visual Commonsense for Robust Scene Graph Generation论文笔记_prototype-based embedding network for scene graph -优快云博客

本文链接：https://blog.youkuaiyun.com/chinalihua/article/details/119059357

该研究提出了一种名为GLAT的全局局部注意力变换器，用于从场景图数据中自动学习视觉常识。GLAT通过自我监督学习策略修复带有噪声的场景图，从而提高场景理解的准确性。模型由感知模型和常识模型组成，融合模块根据每个模型的置信度来决定最终预测。实验表明，GLAT在学习和应用常识方面优于传统变压器和基于图的模型，增强了场景图生成的鲁棒性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原论文地址：https://link.springer.com/content/pdf/10.1007/978-3-030-58592-1_38.pdf

2.1 Commonsense in Computer Vision（常识在计算机视觉中）

2.2 Commonsense in Scene Graph Generation[李8] （常识在场景图生成）

2.3 Transformers and Graph-Based Neural Networks[李9]

3 Method

3.1 Global-Local Attention Transformers（常识模块）

3.2 Fusing Perception and Commonsense

4、实验

5 Conclusion

总体结构：

感知模型，它采用输入图像I并生成感知驱动的场景图 GP
常识模型，它以 G P 作为输入，并产生一个常识驱动的场景图 G C

感知模型GLAT：

输入G_p，带有masked node。经过一个Global-Local多头注意力机制，

具体实现：

G=（Ne，Np，Es，Eo）Ne:实体节点 Np:谓词节点 Es:谓词指向主语 Eo:谓词指向宾语
输入：多个节点x_i^(0)，封装成矩阵X(0)
每一层layer：
Decoder：用一个全连接层分类节点（实体节点、谓词节点），另一个全连接层分类边（subject、object、无边）

其中 H_l是layer l的Attention head。包含三部分 global 、 local Subject、 local Object。

每个h_G、h_LS、h_LO都是一个self-attention （A s 是主语边缘的邻接矩阵，从每个谓词到它的主语之间为 1，反之亦然，其他地方为 0。我们类似地定义宾语边缘的 Ao 和 h LO）

训练方法：将噪声随机添加到带注释的场景图（数据来自Visual Genome，比如使其产生masked node），然后传入GLAT，重建节点和边，并在添加噪声之前和原始场景图进行对比。

融合感知和常识模型

感知和常识模型使用softmax计算每一类的可能性，选择概率最大的那个，并根据softmax值分配相应的置信度。融合模块根据两个模型的置信度，给出最终预测。

具体：同一节点i

在G_p有一个L_i^P向量（有实体节点、谓词节点之分）
在G_c也有一个L_i^C
置信度： q_i^C类似
融合机制： softmax

Conclusion

主要创新点：

提出GLAT 学习Commonsense效果更好。
提出场景图生成架构：由感知和常识模型组成。
提出融合机制，决定何时信任感知或者常识。

附件：论文翻译（绝大部分机翻）

Abstract

场景图生成模型通过对象和谓词识别来理解场景，但由于野外感知的挑战，容易出错。感知错误往往会导致输出场景图中无意义的构图，这些构图不遵循现实世界的规则和模式，可以使用常识性知识进行纠正。我们提出了第一个从数据中自动获取启示和直观物理等视觉常识的方法，并用它来提高场景理解的鲁棒性。为此，我们扩展了Transformer模型，以纳入场景图的结构，并在场景图语料库上培训我们的全局-本地注意力Transformer。一旦经过培训，我们的模型可以应用于任何场景图生成模型，并纠正其明显的错误，从而产生语义上更合理的场景图。通过广泛的实验，我们展示了我们的模型比任何替代方案都能更好地学习常识，并提高了最先进的场景图生成方法的准确性。

Introduction

在最近的计算机视觉文献中，人们越来越有兴趣将常识推理和背景知识纳入视觉识别和场景理解的过程[8，9，13，31，33]。例如，在场景图生成（SGG）中，外部知识库[7]和数据集统计[2，34]已用于提高实体（对象）和谓词（关系）识别的准确性。这些技术的效果通常是纠正明显的感知错误，并代之以更合理的替代方案。例如，图1（上图）显示，SGG模型错误地将鸟类归类为熊，这可能是由于光线昏暗和物体尺寸小。然而，常识模型[李1] 可以正确预测鸟类，因为熊在树枝上是一种不太常见的情况，与直觉物理不太一致，或者与动物行为相反。

图1. 方法概述：我们提出了一个常识模型，该模型采用感知模型生成的场景图，并对其进行细化，使其更合理。然后，融合模块比较感知和常识输出，并生成最终图，将这两个信号都包含在一起。

将常识纳入视觉识别过程的现有方法有两个主要局限性。首先，它们依赖于外部常识来源，例如众包或自动挖掘的常识规则，这些规则往往不完整和不准确[7]，或直接从训练数据中收集的统计数据，这些统计数据仅限于简单的启发式方法，如共发生频率[2]。本文提出了从场景图语料库中自动学习图形常识的第一种方法，该语料库不需要外部知识，并通过学习简单启发式方法之外的复杂、结构化模式来获得常识。

其次，大多数现有方法都非常容易受到数据偏见的影响，因为它们将数据驱动的常识知识集成到数据驱动的神经网络中。比如图1中的常识模型，为了避免大象画图的奇葩三叉大象，而大象在视觉上相当清晰，感知模型已经正确识别了大象。现有的将场景理解与常识相结合的努力都没有研究过是信任感知还是常识的基本问题，即你看到的与你期望的。本文提出了一种将感知[李2] 和常识[李3] 分离为两个单独训练的模型的方法，并引入了一种利用这两种模型之间的分歧来实现两全其一的方法。

为此，我们首先提出了视觉常识的数学形式化，作为自动编码摄动场景图的问题。基于新形式主义，我们提出了一种从附加注释的场景图中学习视觉常识的新方法。我们扩展了最近成功的变压器[23]通过添加局部注意力头，使他们能够编码场景图的结构，并在注释场景图的