TR-DETR: Task-Reciprocal Transformer for Joint Moment Retrieval and Highlight Detection【翻译+精读+笔记】
Abstract
翻译
基于自然语言提问的视频时刻检索(MR)和高光检测(HD)是两个高度相关的任务,其目的在于获取视频内的相关时刻以及每个视频片段的精彩片段得分。近期许多方法已经尝试DETR-based的网络去联合处理MR和HD。这些方法只是简单的在多模态特征提取和特征交互之后添加了两个分开的任务头就能取得很好的效果。然而,这些方法没有充分利用两者的互补关系。在这篇文章中,我们提出了一种基于DETR的任务互补的transfoermer架构,TR-DETR,去探索MR和HD两者之间固有的互补性。具体而言,首先构建一个局部 - 全局多模态对齐模块,以便将来自不同模态的特征对齐到一个共享的潜在空间中。随后,设计了一种视觉特征细化方法,用于从视觉特征中剔除与查询不相关的信息,以实现模态交互。最后,构建了一个任务协作模块,通过利用时刻检索(MR)和精彩片段检测(HD)之间的互补性来优化检索流程和精彩片段得分预测过程。在 QVHighlights、Charades-STA 和 TVSum 数据集上进行的综合实验表明,TR-DETR 的性能优于现有的最先进方法。
代码: https://github.com/mingyao1120/TR-DETR.
精读
现有的模型只是简单给两个任务分开加检测头就能取得更好的效果本文设计一个可以利用两个之间信息互补的想法设计了一个网络。
1.构建一个局部 - 全局多模态对齐模块相当于给输入做一个Normalization。
2.设计了一种视觉特征细化方法,用于从视觉特征中剔除与查询不相关的信息,以实现模态交互。相当于提取特征。
3.构建一个任务协作模块优化两个任务。
Introduction
翻译
随着数字设备的普及以及互联网的扩展,视频的数量和种类都在迅速增加。如何根据用户的需求从繁多的视频中快速找到需要的时刻(MR),高效浏览视频(HD) 已经引起了注意。在实际应用中,用户的需求可以被表达成自然语言提问。由于复杂的视频内容和用户需求,以用户提供自然语言提问的MR和HD正面临巨大 挑战。
MR的作用是根据自然语言的提问从整个视频中找到语义相关的视频时刻。基本的MR包括一下几个步骤。首先,预训练网络被用来提取输入的视频和文字特征。然后,基于提取出的特征进行跨模态交互,以获得候选时刻的查询相关性得分或相关时刻的帧级起止概率。基于提问的HD从用户需求考虑去给每个视频片段分配高光得分。现有的方法利用Transformers或者图神经网络使用了单模态的特征编码或者多模态交互。
由于MR和HD在都是基于查询的方式而且都是使用多模态的特征提取和交互。一些工作已经致力于设计多任务网络去联合MR和HD。列如,Moment-DETR最先使用DETR去联合MD和HD。QD-DETR引入了一个查询依赖的视频表征模块使得时刻预测依赖用户的查询。MH-DETR采用池化操作进行编码并且包含一个跨模态交互模块,用于融合视觉特征和查询特征。在这些方法中,在用于联合进行MR和HD的共享多模态特征提取及特征交互模块之后,添加了两个独立的任务头。这些方法通常侧重于通过多任务学习方案来提高多模态特征提取和特征交互的区分度,并取得了良好的性能。然而,MR和HD任务之间的相互关系却被忽视了。
对于MR来说,可以利用基于用户提供的查询所得到HD中的精彩度得分,来协助排除与查询不相关的视频片段,从而提高时刻检索的准确性。反过来,对于基于查询的HD来说,MR的结果可以用来增强对视频和用户需求的理解。因此,MR和基于查询的HD是相关的。
为了找到两个任务的完整相关关系,我们提出了一种Transformer架构的任务相关的基于DETR的模型去联合MR和HD,我们称它为TR-DETR。首先,预训练的时候视觉特征和文本特征可以通过用户提供的视频和查询提取到。然后,我们设计了一种局部-全局的多模态对齐模块在模态交互前保证全局和局部语义一致。该模块促使模型区分那些在语义上相似但与查询无关的视频片段。随后,我们提出了一个用于模态交互的视觉特征细化模块,该模块利用对齐的文本特征来过滤掉视觉特征中与查询无关的信息,以避免其干扰联合特征。最后,为了利用MR和HD之间的互补性。我们提出了一个由HD2MR和MR2HD的任务协作模块。前者把高光得分信息融入到MR中,后者后者利用定位结果来得出片段级别的相关性得分,为HD提供视觉上的支持。我们在QVHighlights,Charades-STA和TV-Sum上做了大量实验实验,我们的模型取得了SOTA。
这篇文章的贡献如下:
1.我们强调了MR和HD任务之间的关系。同时提出了一个创新的TR-DETR网络,利用任务的相关性去优化表现。
2.我们引入了局部和全局对齐调节器。这些调节器旨在促进视频片段与查询之间的语义对齐,这有助于生成具有区分性的联合表征。
3.为了探究这两项任务之间内在的互补性,我们构建了一个任务协作模块。该模块通过将精彩度得分注入到MR流程中,并利用检索到的时刻来细化初始的精彩度分布,从而明确地利用了MR和HD之间的互补性。
精读
之前的研究
Moment-DETR最先使用DETR去联合MD和HD。
QD-DETR引入了一个查询依赖的视频表征模块使得时刻预测依赖用户的查询。
MH-DETR采用池化操作进行编码并且包含一个跨模态交互模块,用于融合视觉特征和查询特征。
本文的贡献
1.提出了HD和MR两个任务相互关联性。
2.设计了MD2HD,和HD2MD模块。
3.引入了局部和全局对齐调节器。
Related Works
MD and HD
视频时刻检索最早在文章(Gao et al. 2017)中提出,通过给出的自然语言查询检索出视频时刻。时刻检索传统上采用两种方法:基于提案的方法和不基于提案的方法。在提案的方法中,候选时刻最初是通过诸如滑动窗口(高等人,2017 年)、候选区域生成网络(徐等人,2019 年)或二维映射(张等人,2020 年)等技术生成的。这些候选之后根据与查询的相似度进行得分排名,最高分作为结果。尽管这些方法有着高的正确率,它们需要额外的预处理和后处理步骤,从而引入了计算冗余。而且,他们的表现很依赖候选时刻的质量。相比,没有提案的方法,直接对目标视频预测开始到结束的可能性。这样消除了对大量候选时刻进行排序的必要性,从而提高了训练效率。
相比,HD侧重于衡量给定视频内每个片段的重要性。与MR略有不同的是,HD最初是作为单模态任务被提出的,且不依赖于文本查询。然而,HD的判定往往是一个主观的事情,应该考虑到用户的偏好。因此,文献(库迪和南布迪里,2017 年)提议将文本查询作为HD的补充信息进行整合。尽管如此,这项工作仅仅依靠文本排序算法对文本领域的视频描述进行排序,以指导视频片段排序,它并不涉及文本和精彩内容的直接对齐。随后,在与HD密切相关的视频缩略图生成方面,袁等人(袁、马和朱,2019 年)深入研究了文本查询,并使用图卷积网络来对每个片段和文本之间的交互进行建模。
传统上,MR和HD是分开处理的,缺乏一个用于联合学习的综合框架。近期的研究(雷、伯格和班萨尔,2021 年)构建了 QVHighlights 数据集以MR和HD的联合学习,并提出了一个基于 DETR 的基准模型。在此基础上,刘等人(刘等人,2022b)将音频模态纳入模型,以适应缺少查询的场景。此外,穆恩等人(穆恩等人,2023 年)优先将所提供的查询信息完全整合到联合表征中,使文本能够同时指导MR和HD。与以往的方法不同,本文侧重于利用这两项任务之间的自然相互关联性
Multi-Modal Alignment
最近,多模态领域的研究人员一直专注于构建对比损失,以适应不同模态之间的相互作用和对应关系(罗等人,2020 年;孙等人,2020 年;米耶什等人,2020 年;严等人,2023 年)。例如,文献(金等人,2020 年)引入了一种循环一致性损失,用于对齐视频片段级特征和查询词级特征。同样,文献(张等人,2022 年)引入了一种多级对比损失,以捕捉查询和视频内多粒度的交互对齐细节,从而提高时刻检索的性能。尽管这些方法与我们的方法中的多模态对齐有相似之处,但它们在模态交互之前并没有明确地对齐不同模态的语义信息,导致联合特征的区分度不足。
精读
MD的定义
根据自然语言的查询得到视频时刻。
MD传统两种方法
1.proposal-based
使用了滑动窗口,候选区域生成网络,二位映射。
优点:正确率高。
缺点:计算慢,结果依赖一些人为操作或者先验知识。
2.proposal-free methods.
优点:减少计算冗余。
HD的定义
视频中的精彩部分。
HD的发展
库迪和南布迪里将文本查询作为HD的补充信息进行整合,没有考虑对齐。
袁等人深入研究了文本查询,并使用图卷积网络来对每个片段和文本之间的交互进行建模。
HD联合MR
雷、伯格和班萨尔,2021 年)构建了 QVHighlights 数据集以MR和HD的联合学习,并提出了一个基于 DETR 的基准模型。
刘等人(刘等人,2022b)将音频模态纳入模型,以适应缺少查询的场景。
穆恩等人(穆恩等人,2023 年)优先将所提供的查询信息完全整合到联合表征中。
Multi-Modal Alignment的定义
它是指在处理包含多种模态(如文本、图像、音频等)信息的任务中,将不同模态的数据在语义层面或特征空间层面进行匹配和校准的过程。
前人的方法在模态交互之前并没有明确地对齐不同模态的语义信息,会导致联合特征的区分度不足
Method
Figure 1:TR-DETR包括几个关键步骤。初始状态,两个冻住的预训练网络用来从视频和查询中提取视觉和文本特征。然后一个全局-局部多模态对齐模块用来对齐提取到的视觉和文本特征。然后,在文本特征的指导下对视觉特征进行细化,以获得具有区分性的联合特征。最后,基于任务的相互关联性,实施一个任务协作模块以提升预测结果。此外,两个多头自注意力组件共享权重。
回顾Figure 1。TR-DETR有4个核心模块:特征提取,局部-全局多模态对齐,为模块交互的视觉特征细化,任务协作模块。细节娓娓道来…
特征提取
视觉特征
依照文献(雷、伯格和班萨尔,2021 年),首先按照一定的时间间隔(比如 2 秒)将视频划分为互不重叠的片段。然后利用在 CLIP(拉德福德等人,2021 年)和 SlowFast(费希滕霍费尔等人,2019 年)中预训练的 ViT - B/32 来提取片段级别的视觉特征,
F
v
=
{
f
v
1
,
f
v
2
,
…
,
f
v
L
}
∈
R
L
×
d
v
F_{v}=\left\{f_{v1}, f_{v2}, \ldots, f_{vL}\right\} \in R^{L\times d_{v}}
Fv={fv1,fv2,…,fvL}∈RL×dv其中L是片段的数量,
d
v
d_{v}
dv是视觉特征的维度。按照 UMT(刘等人,2022b)使用音频信息的方式,我们使用预训练的音频特征提取器来提取音频特征
F
a
∈
R
L
×
d
a
F_{a}\in R^{L\times d_{a}}
Fa∈RL×da然后将它们拼接在视觉特征之后。详见实验设置部分。
精读
视觉特征用了3步:
1.利用在 CLIP和 SlowFast中预训练的 ViT - B/32 来提取片段级别的视觉特征。
一个30s的视频,每2s划分得到15个小段,最后得到15* d v d_{v} dv。
2.使用预训练的音频特征提取器来提取音频特征得到了15* d a d_{a} da。
3.最后把两个做splice。得到15* d v + a d_{v+a} dv+a
文本特征提取
翻译
对于自然语言查询,我们预训练CLIP的时候使用了文本编码去提取到文本特征 F t = { f t 1 , f t 2 , … , f t N } ∈ R N × d t F_{t}=\left\{f_{t1}, f_{t2}, \ldots, f_{tN}\right\} \in R^{N\times d_{t}} Ft={ft1,ft2,…,ftN}∈RN×dt,其中N表示单词的数量, d t d_{t} dt表示文本特征维度。
局部 - 全局多模态对齐
翻译
现有的方法联合MR和HD是直接把提取到的视觉特征和文字特征输入到交互模块中去得到联合特征。然而,视觉特征和文本特征之间存在一种自然的信息不匹配情况,这导致联合特征的区分度不足(徐、朱和克利夫顿,2022 年)。在本文中,为了降低模态差距,我们提出了一种局部-全局多模态对齐模块,包含局部和全局的正则化组件。局部调节器有助于模型区分语义相似但并非所需的片段,而全局调节器可确保两种模态共享一个统一的语义空间。整合这些对齐调节器能够显著促进多模态关联,并为后续的模态交互提供便利。
给定视频的片段级视觉特征 F v F_{v} Fv以及查询的词级文本特征 F t F_{t} Ft,我们首先通过使用三层多层感知器(MLP)将它们映射到相同的维度 d {d} d。
F ^ v = MLP v ( F v ) , F ^ t = MLP t ( F t ) . \begin{align} \hat{F}_{v} &= \text{MLP}_{v}(F_{v}), \tag{1} \\ \hat{F}_{t} &= \text{MLP}_{t}(F_{t}). \tag{2} \end{align} F^vF^t=MLPv(Fv),=MLPt(Ft).(1)(2)
对于局部调节器,我们通过使用以下公式来计算每个片段与每个单词之间的余弦相似度,从而得到一个相似度矩阵
S l o c = σ ( F ^ b v F ^ t T ∥ F ^ v ∥ 2 ∥ F ^ t ∥ 2 ) , \begin{equation} S_{loc} = \sigma\left(\frac{\hat{F}_{bv} \hat{F}_{t}^{T}}{\left\|\hat{F}_{v}\right\|_{2}\left\|\hat{F}_{t}\right\|_{2}}\right), \tag{3} \end{equation} Sloc=σ F^v 2 F^t 2F^bvF^tT ,(3)
σ 是激活函数。我们使用平均池化得到 S ^ l o c = MeanPooling ( S l o c ) ∈ R L \hat{S}_{loc} = \text{MeanPooling}(S_{loc}) \in R^{L} S^loc=MeanPooling(Sloc)∈RL,用来度量每个视频片段和全局文字特征的相似度。然后一个局部正则化的loss L l o c \mathcal{L}_{loc} Lloc鼓励区分与查询不相关的视频片段。
L l o c a l = − ∑ i = 1 L ( C i log ( S ^ l o c i ) + ( 1 − C i ) log ( 1 − S ^ l o c i ) ) , (4) \mathcal{L}_{local} = - \sum_{i = 1}^{L} \left( C^{i} \log(\hat{S}^{i}_{loc})+(1 - C^{i}) \log(1 - \hat{S}^{i}_{loc}) \right), \tag{4} Llocal=−i=1∑L(Cilog(S^loci)+(1−Ci)log(1−S^loci)),(4)
其中 S ^ l o c i \hat{S}^{i}_{loc} S^loci是第 i i i个视频片段与全局文本特征之间的相似度得分。 C i C^{i} Ci表明第 i i i个视频片段与查询内容实际上是否相关。具体而言,根据MR中的标注真值,如果第 i i i个片段与查询内容相关,那么 C i C^{i} Ci的值为1,否则为0。对于全局调节器,采用了一种多模态对比损失(Li 等人,2021 年)来提升成对的视频和查询的全局表示之间的相似性。
L g l o b a l = − 1 B ∑ i = 1 B log exp ( ( G v i ) ( G t i ) T ) ∑ i = 1 B ∑ j = 1 B exp ( ( G v i ) ( G t j ) T ) , (5) \mathcal{L}_{global} = - \frac{1}{B} \sum_{i = 1}^{B} \log \frac{\exp((G_{v}^{i}) (G_{t}^{i})^{T})}{\sum_{i = 1}^{B} \sum_{j = 1}^{B} \exp((G_{v}^{i}) (G_{t}^{j})^{T})}, \tag{5} Lglobal=−B1i=1∑Blog∑i=1B∑j=1Bexp((Gvi)(Gtj)T)exp((Gvi)(Gti)T),(5)
B是batch size, G v i G_{v}^{i} Gvi和 G t i G_{t}^{i} Gti是第 i i i个视频的和第 i i i个查询的全局特征。具体来说 G v i G_{v}^{i} Gvi是通过对第 i i i个视频内的所有片段特征 F ^ v \hat{F}_{v} F^v求平均得到的。 G t i G_{t}^{i} Gti是通过对第 i i i个查询中的词级特征 F ^ t \hat{F}_{t} F^t求平均得到的。
精读
1.使用了3个MLP对片段级视觉特征 F v F_{v} Fv以及查询的词级文本特征 F t F_{t} Ft进行维度统一到 d {d} d。
2.计算片段和单词之间的余弦相似度得到相似度矩阵。
余弦相似度:
是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量,余弦值越接近1,就表明夹角越大,接近0度,也就是两个向量越相似,这就叫"余弦相似性"。可以使用cos的差角公式推导。
局部loss
举个例子,如果视频和文字越相关也就是 C i C^{i} Ci的值为1,那么 S ^ l o c i \hat{S}^{i}_{loc} S^loci我们就希望他为1,那么loss就是0,如果越不相关,那么loss就很大。(log曲线取反越靠近0越大)
全局loss
分母表示每个视频和每个文字查询都算一下相关,分子表示文字查询对应的视频之间的相关。如果比值越大,说明文字和视频越匹配,比值接近1,log取反后loss就越接近0。
模态交互的视觉特征细化
翻译
模态交互的目标是从视觉特征和文本特征中生成具有判别性的联合特征(Lei、Berg 和 Bansal,2021 年),这在联合多模态检索MR与HD任务中起着关键作用。在相关文献(Lei、Berg 和 Bansal,2021 年)中,为了实现模态交互,只是简单地将视觉特征和文本特征拼接在一起。然而,视频通常包含大量与文本查询不相关的片段,这可能会导致模型过度关注这些不相关的内容,从而忽略了真正重要的片段。
为了抑制视觉特征中与查询不相关信息的干扰,我们引入了一个受文献(Xiong、Zhong 和 Socher,2017)启发的查询引导的视觉特征细化模块,用于模态交互。该模块利用文本查询作为引导来细化片段级视觉特征,以有效抑制视频中存在的不相关信息并保留时间线索。对齐后的片段级视觉特征和词级文本特征之间的相似度矩阵计算如下:
A = Linear ( F ^ v ) Linear ( F ^ t ) T d , (6) A = \frac{\text{Linear}(\hat{F}_{v})\text{Linear}(\hat{F}_{t})^{T}}{\sqrt{d}}, \tag{6} A=dLinear(F^v)Linear(F^t)T,(6)
其中
A
∈
R
L
×
N
A \in R^{L\times N}
A∈RL×N是相似度矩阵,并且 Linear(·)
表示线性投影层。然后,该相似度矩阵被分别用于对查询特征和视频特征进行加权求和,以获得初步的细化特征。
F v 2 q = A r F ^ t , F q 2 v = A r A c T F ^ v , \begin{align} F_{v2q} &= A_{r} \hat{F}_{t}, \tag{7}\\ F_{q2v} &= A_{r} A_{c}^{T} \hat{F}_{v}, \tag{8} \end{align} Fv2qFq2v=ArF^t,=ArAcTF^v,(7)(8)
其中 A r A_{r} Ar 和 A c A_{c} Ac表示行和列softmax和normalization的结果 。 F v 2 q F_{v2q} Fv2q和 F q 2 v F_{q2v} Fq2v分别是片段级文本特征和词级视觉特征。最后,为了进一步利用文本查询来优化片段级视觉特征 F ^ v \hat{F}_{v} F^v,我们进行如下的特征拼接,并通过线性投影获得最终细化的片段特征 F v ˉ \bar{F_{v}} Fvˉ.
F v Cat = [ F ^ v ∥ F v 2 q ∥ F ^ v ⊙ F v 2 q ∥ F ^ v ⊙ F q 2 v ∥ F t G ] , F ‾ v = Linear ( F v Cat ) , \begin{align} {F}_{v}^{\text{Cat}} &= \left[ \hat{F}_{v} \parallel F_{v2q} \parallel \hat{F}_{v} \odot F_{v2q} \parallel \hat{F}_{v} \odot F_{q2v} \parallel F_{t}^{G} \right], \tag{9}\\ \overline{F}_{v} &= \text{Linear}({F}_{v}^{\text{Cat}}), \tag{10} \end{align} FvCatFv=[F^v∥Fv2q∥F^v⊙Fv2q∥F^v⊙Fq2v∥FtG],=Linear(FvCat),(9)(10)
其中 F t G ∈ R L × d F_{t}^{G} \in R^{L\times d} FtG∈RL×d是一个通过池化操作获得的文本全局特征进行复制和拼接而形成的矩阵,[ ⋅ \cdot ⋅ ∥ \parallel ∥ ⋅ \cdot ⋅ ]表示拼接操作,而$\odot 是哈达玛积(逐元素相乘)。然后,利用交叉注意力层进行模态融合,以便进一步将查询特征纳入联合特征中,其中文本特征来自经过细化的片段特征 是哈达玛积(逐元素相乘)。然后,利用交叉注意力层进行模态融合,以便进一步将查询特征纳入联合特征中,其中文本特征来自经过细化的片段特征 是哈达玛积(逐元素相乘)。然后,利用交叉注意力层进行模态融合,以便进一步将查询特征纳入联合特征中,其中文本特征来自经过细化的片段特征Q_{v}=\text{Linear}{q}(\bar{F}{v}) , 键特征 ,键特征 ,键特征K_{t}=\text{Linear}{k}(\hat{F}{v}) 和值特征分别来自文本特征 和值特征分别来自文本特征 和值特征分别来自文本特征V_{t}=\text{Linear}{v}(\hat{F}{t})$和。
Z = Attention ( Q v , K t , V t ) = Softmax ( Q v K t T d ) V t , \begin{equation} Z = \text{Attention}(Q_{v}, K_{t}, V_{t}) = \text{Softmax}\left( \frac{Q_{v}K_{t}^{T}}{\sqrt{d}} \right) V_{t}, \tag{11} \end{equation} Z=Attention(Qv,Kt,Vt)=Softmax(dQvKtT)Vt,(11)
其中 Z ∈ R L × d Z \in R^{L\times d} Z∈RL×d表示通过细化后的视觉特征与文本特征之间的模态交互所得到的联合特征。
精读
哈达玛积:
矩阵哈达玛积是一种在线性代数和概率论中的数学工具,它通过对两个矩阵的相似性进行评估。在几何意义上,它表示了两个向量空间中的相似性,并可以用来计算两个矩阵之间的距离。在概率论中,矩阵哈达玛积可以用来表示两个随机变量的相关性。
线性投影
经过线性投影后,输入嵌入的维度可能会增加,以便让模型能够处理更高维度的特征空间,从而捕获更细致、更复杂的特征。也就是需要理解自己。
Pipeline
1.通过两次线性映射和归一操作得到相似度矩阵A。
2.通过A矩阵进行行列softmax和normalization得到了 A r A_{r} Ar和 A c A_{c} Ac。
3.对视觉和文本特征都做了线性映射得到了 F v 2 q F_{v2q} Fv2q和 F q 2 v F_{q2v} Fq2v。
4.得到的特征进行拼接,就可以包含原来的视觉特征。
5.其实就是去做Transforemer提取注意力了。
任务协同
翻译
尽管先前的一些方法(Lei、Berg 和 Bansal,2021;Liu 等人,2022b;Moon 等人,2023)已经尝试联合解决MR和HD问题,但这些方法通常侧重于优化共享的多模态特征提取和特征交互模块,以便利用多任务学习框架来提高联合特征的判别能力。然而,MR和HD任务之间固有的互补性并未得到充分利用。
从本质上讲,高光得分较高的视频片段往往是MR的有力候选对象。因为值得成为高光的片段往往具有更强的视觉重要性和吸引力。此外,与当前查询相关时刻内的片段可能也涵盖了高光部分。这是因为与查询相关的时刻也包含了用户需求的视觉表达,这有助于从视觉角度细化高光得分分布。基于这些见解,我们提出了一个HD2MR和MR2HD组件构成的任务协作模块。
HD2MR
MR可以HD所获得的高光分数来排除不相关或吸引力较低的视频片段。我们首先使用多头注意力机制和一个线性层从联合特征 Z Z Z中获取片段级的高光分数。
H = Linear ( MHA ( Z ) ) , \begin{equation} H = \text{Linear}(\text{MHA}(Z)), \tag{12} \end{equation} H=Linear(MHA(Z)),(12)
其中 MHA ( ⋅ ) \text{MHA}(\cdot) MHA(⋅)表示用于对视频时序信息进行建模的多头注意力机制并且 H ∈ R L H \in R^{L} H∈RL是预测出的高光分数。为了过滤掉 Z Z Z中的非高光信息,并将高光分数信息明确地注入到多模态检索流程中,我们将片段级的高光分数 H H H与联合特征 Z Z Z相乘,以获得增强后的联合特征 Z ˉ \bar{Z} Zˉ ∈ R L × d \in R^{L\times d} ∈RL×d。然后,将 Z ˉ \bar{Z} Zˉ再次输入到多头注意力机制(MHA)中进行联合特征编码。
Z = Softmax ( H ) ⊙ Z Z ^ = MHA ( Z + Z ˉ ) \begin{equation} \begin{split} Z &= \text{Softmax}(H) \odot Z\\ \hat{Z} &= \text{MHA}(Z+\bar{Z}) \end{split}\tag{13} \end{equation} ZZ^=Softmax(H)⊙Z=MHA(Z+Zˉ)(13)
其中, Z ^ \hat{Z} Z^是感知到的高光分数的联合特征。最后,这些增强后的特征 Z ^ \hat{Z} Z^被输入到来自文献(Liu 等人,2022a)中的 Transformer 解码器和预测头中,以获得最终检索到的时刻。
MR2HD
反过来,HD通过利用来自MR的文本查询和检索到的时刻,对视频内容和用户需求有了更深入的理解。我们采用门控循环单元(GRU)(Chung 等人,2014)来有效地从检索到的时刻中捕获全局信息。
KaTeX parse error: Unexpected end of input in a macro argument, expected '}' at end of input: …\end{equation}
其中, m m m表示来自HD2MR所检索到时刻 F ^ v \hat{F}_{v} F^v的中的片段特征向量,并且 F v M ∈ R d F_{v}^{M} \in R^{d} FvM∈Rd是这些检索到时刻的全局特征向量。为了利用检索到时刻的视觉信息来细化高光分数预测,我们 F v M F_{v}^{M} FvM计算与视觉特征 F ^ v \hat{F}_{v} F^v之间的相似度分数。
S r e f = F v M F ^ v T ∥ F v M ∥ 2 ∥ F ^ v ∥ 2 , \begin{equation} S_{ref} = \frac{F_{v}^{M} \hat{F}_{v}^{T}}{\left\lVert F_{v}^{M}\right\rVert_{2} \left\lVert \hat{F}_{v}\right\rVert_{2}}, \tag{15} \end{equation} Sref=∥FvM∥2 F^v 2FvMF^vT,(15)
其中, S r e f ∈ R L S_{ref} \in R^{L} Sref∈RL是片段与 F v M F_{v}^{M} FvM之间的相关性。
高光分数的细化过程涉及将片段级相关性分数与 Z ^ \hat{Z} Z^相乘,然后将它们加到 Z {Z} Z上,最后通过线性投影获得细化后的分数。其公式如下:
H = Linear ( Z + Softmax ( S r e f ) ⊙ Z ^ ) , \begin{equation} H = \text{Linear}(Z + \text{Softmax}(S_{ref}) \odot \hat{Z}), \tag{16} \end{equation} H=Linear(Z+Softmax(Sref)⊙Z^),(16)
其中, H ∈ R L H \in R^{L} H∈RL是细化后的高光分数。
精读
HD2MR
使用了多头注意力机制,通过softmax变成概率提取重要信息然后添加到原来的信息上做数据增强。
MR2HD
使用了RNN的变体GRU得到全局的特征向量然后把这个向量和视觉特征做相似度分数处理,最后把得到的相关性和HD2MR的结果再和原来的联合特征做数据增强。
目标损失
跨模态检索 Transformer(TR-DETR)的目标损失包含三个部分:MR损失、HD损失以及局部和全局调节损失。
L t o t a l = L m o m + L h i g h + λ l g ( L l o c a l + L g l o b a l ) , \begin{equation} \mathcal{L}{total} = \mathcal{L}{mom} + \mathcal{L}{high} + \lambda_{lg}(\mathcal{L}{local} + \mathcal{L}{global}), \tag{17} \end{equation} Ltotal=Lmom+Lhigh+λlg(Llocal+Lglobal),(17)
其中, L l o c a l \mathcal{L}{local} Llocal是局部 - L g l o b a l \mathcal{L}{global} Lglobal全局调节损失的系数。 L m o m \mathcal{L}{mom} Lmom和 L h i g h \mathcal{L}{high} Lhigh与 QD-DETR(由 Moon 等人提出的相关方法)中的相应损失是一致的。