Dynamic Scene Graph Generation via Anticipatory Pre-training论文阅读笔记-优快云博客

本文链接：https://blog.youkuaiyun.com/jerry__young/article/details/126208803

本文介绍了一种针对视频场景图的前瞻性预训练范式，旨在捕捉时序关系中的视觉关系，通过空间编码器、渐进式时序编码器和全局时序编码器解决空间时间交织及AG数据集部分标注的问题。方法包括物体检测、特征提取、短时和长时编码，以及预训练和微调策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Motivation

过去的方法只是在特征维度上对时间信息进行建模，这是一种相对笼统的方式，因为它不能明确的捕捉到视觉关系在时序上的相关性。人类可以轻易的从过去已有的相关关系推出当前帧的视觉关系，但这种视觉推导是具体于时序关系的。因此我们需要解决一下两个问题：1.空间信息和时间信息是高度缠绕的，这不利于捕捉时序上具有关联性的关系；2.AG数据集不是全标注的，仅有某几个关键帧的标注。

Contribution

提出了针对视频场景图的anticipatory(？不知道怎么翻译)预训练范式，该范式能够在task-level上显式地对视觉关系进行时序相关性建模；

Method

对于第 $t$ 帧图篇 $I_{t}$ ，首先使用预训练检测器来检测第 $t$ 帧及之前帧的物体 $bb o x$ 框和类别。之后使用空间编码器来提取每一帧中物体对的视觉特征。然后是通过渐进的时间编码器来建模不同帧中物体对的长时时序相关度。需要注意的是，空间编码器和渐进式时序编码器是经过预训练的，对于第 $t$ 帧来说，它的渐进式时序特征来自前 $t - 1$ 帧，在第 $t$ 帧，我们结合空间编码器提取空间特征和前 $t - 1$ 帧的渐进式时序特征，通过一个全局时序编码器来提取当前帧的特征，并预测当前帧的物体对之间的关系信息，全局时序编码器是在微调阶段进行训练的。

在这里插入图片描述

首先使用目标检测器得到第 $t$ 帧第 $i$ 个物体的特征信息，包括视觉、位置、语音信息：
$f_{t, i}=[\textbf{M}_{o}v_{t, i}, \phi(b_{t, i}), s_{t, i}]$
然后将该帧的所有物体看作一个特征序列，作为空间编码器的输入：
$X_{spa, t}^{0}={f_{t, 1}, f_{t, 2}, ..., f_{t, N(t)}}$