阅读”DSHmp-解组静态感知与分层动态感知的参考视频分割“记录-优快云博客

一、论文来源：

https://openaccess.thecvf.com/content/CVPR2024/papers/He_Decoupling_Static_and_Hierarchical_Motion_Perception_for_Referring_Video_Segmentation_CVPR_2024_paper.pdfhttps://openaccess.thecvf.com/content/CVPR2024/papers/He_Decoupling_Static_and_Hierarchical_Motion_Perception_for_Referring_Video_Segmentation_CVPR_2024_paper.pdfhttps://openaccess.thecvf.com/content/CVPR2024/papers/He_Decoupling_Static_and_Hierarchical_Motion_Perception_for_Referring_Video_Segmentation_CVPR_2024_paper.pdfhttps://openaccess.thecvf.com/content/CVPR2024/papers/He_Decoupling_Static_and_Hierarchical_Motion_Perception_for_Referring_Video_Segmentation_CVPR_2024_paper.pdfhttps://openaccess.thecvf.com/content/CVPR2024/papers/He_Decoupling_Static_and_Hierarchical_Motion_Perception_for_Referring_Video_Segmentation_CVPR_2024_paper.pdf

二、简介

1、往期项目的特点以及问题

参考视频分割主要依靠于自然语言表达来识别以及分割目标对象，之前的成果直接把提示句作为一个整体并直接在视频级别上进行识别以及分割，并混淆图像级别静态线索以及时间动态线索；然而图像级特征识别很难理解句中的动态线索，且静态线索对动态线索的识别并不重要，甚至有可能会影响动态线索的识别。

2、该项目的特点

该项目将视频级参考视频分割切割成两个部分：静态感知以及动态感知，且特别着重于增强理解时间维度的线索；使用语义解耦模型让静态线索以及动态线索各司其职，以此避免嵌入语句对动态线索的忽视；该项目的改进在五个数据库的实验上制造了领先性的成果，在最具有挑战性的MeVi数据库中制造了9.2%的J &F提升（ps：J ：平均 IoU；F ：边界语义相似性（mean boundary similarity）；J &F：以上两数的平均值）

3、难点及解决方案

（1）一个动作在视频中可能经历难以预测的动作帧

ans：使用分层动作识别，由短时间片到长时间片分层理解感知

（2）如何区分两个外貌极为相似但动作完全不同的相似物体

ans：引入对比式学习加以区分

（3）对比式学习中，缺乏正负样本以及mini-batch的体积过小

ans：引入内存银行储存目标对象

（4）内存银行存储全部目标对象特征图时导致学习速度过慢，严重影响效率

ans：为每个对象制造一个“质心”，内存银行仅用于存储质心

三、相关工作

1、过程概述

以下为过程示意图：

（1）提取词语对应特征矩阵FW以及嵌入语句FSe

（2）将给定语句解耦成为静态线索矩阵Fs以及动态线索矩阵Fm

（3）将Fs作为静态线索进行查找，使用Mask2Former提取对象潜在候选对象的标记符O，并在图像级标识掩码特征矩阵Fmask，其中使用对比式学习区分相似对象

（4）用分层动作感知（Hierarchical Motion Perception）渐进分层的收集时间信息，在动作线索矩阵Fm的引导下，产生动作信息敏感的对象标识符O˜hmp

（5）通过动作解码器，使用动作线索矩阵Fm识别目标对象，产生视频标识符V

（6）将视频标识符V于掩码特征矩阵Fmask相乘，可以得出预测掩码，并挑选类分数超过临界点的的对象作为输出

2、线索词的提取

1）静态线索词提取及

（由于实验一般使用英语，所以语句分割的语法默认为英语语法）

使用外部工具（1）提取输入语句中的句中的名词、形容词与介词作为静态线索词，并生成静态词特征矩阵Fs ∈ R Ks×C（2），通过交叉关注机制（3）将静态词特征矩阵Fs与可学习静态查询Qs组合组合生成Qˆ s：

Qs ∈ R Ns×C

Qs是Ns个已初始的静态查询；在经过交叉关注机制后，Qˆ s不仅获取了一堆目标数据分配，还获取了对于特定目标的特定静态线索；随后可以通过MaskFormer实现对每个帧候选对象的图像级别分割

外部工具（1）详见：Sebastian Schuster, Ranjay Krishna, Angel Chang, Li FeiFei, and Christopher D Manning. Generating semantically precise scene graphs from textual descriptions for improved image retrieval. In Proceedings of the fourth workshop on vision and language, pages 70–80, 2015

C（2）：指通道数（number of channels），属于逻辑实体

交叉关注机制（3）：Cross-Attention，属于transformer的一种机制

Ks是静态线索的长度

2）动态线索词的提取

类上，使用外部工具提取输入语句中的动词与副词，从而获取对应的动态线索词，并提取动态词特征矩阵Fm ∈ R Km×C；同样通过交叉关注机制，将动态词特征矩阵Fm与可学习动态查询组合Qm组合生成Qˆm：

Qm ∈ R Nm×C

Qm是Nm个已初始的可学习动态查询，通过交叉关注机制，Qˆm获得了关于目标对象的特定动作线索；这提高了动作解码器对目标对象的识别效果。

Km是动态线索的长度

3）小节总结

通过以上方法，项目实现了将动态线索与静态线索分离，并实现了二者不同且互补的效果

3、分层动态感知

1）流程图

2）模型简介

分层动态感知模型（HMP Module）是由L个分层动态感知块（HMP blocks）构成的，每一个块包括temporal self-attention，hierarchical cross-attention和FFN三个主要组件

temporal self-attention主要用于捕捉长期动作

hierarchical cross-attention分层逐渐从短期到长期的搜集时间信息

FFN用hierarchical cross-attention的结果产生块的输出，并作为下一个块的输入

3）时间帧合并

时间帧合并是将输入的视频段中特定对象的相邻帧进行合并产生权重图，模型将获得静态特征图集合 {Ot |t ∈ [1, T], Ot ∈ R Ns× C }, 包括Ns个由Mask2Former 对T个帧分割的候选对象，并由此作为输入，产生权重图；这里论文使用了Hungarian匹配算法，将相邻的时间帧进行组合，算法如下：

是已匹配完毕的对象阵，可被视为是噪声下的追踪结果；由此，我们可以获得个目标轨迹

；仅作为一个简单对象轨迹

猜想（纯粹编者猜测，还请多多指导）：

在模型介绍中我有说到，FFN是生成块的结果，并将此作为下个块的输入；而时间帧合并的这一块我介绍是将输入的集合通过hungarian匹配算法生成特定对象的权重图，

根据我的猜测：这里分层的做法便是将少数帧先通过块进行组合，产生组合帧并进行推断，完成推断后又将组合帧作为一个新集合重新匹配处理，将少数组合帧再次匹配组合，产生更新的组合帧，直到计算完成为止：

猜测图示：

（圆圈代表帧，H代表hungarian匹配算法，ABC为列号）（随笔画图，技艺不精，见谅）

即根据我的猜测，A列的6个帧为一个输入集合输入到模型中，由于第一个集合较大，分两个一组的进入第一个HMP块，依次产生b列的三个帧，也就是第一次处理；第一次处理后，模型讲产生的三个组合帧，即b列的三个帧当作一个新的输入集合进行处理，由于新集合较小，直接进入第二个块，从而产生结果C

也就是说模型通过三次处理，每次仅处理2-3个帧的短片段，从而完成了对6个帧的长片段的处理，与此同时，第一次处理中两个帧两个帧的短处理避免了一次处理6个帧时的动作误判（如：一只鸟转了一圈返回原地）

4）分层交叉关注机制（Hierarchical Cross-Attention）

为执行分层交叉关注机制，首先需要通过计算特征矩阵Fm以及上一阶段的结果权阵之间的相似度计算公式为：

；h ∈ [1, Nh]代表交叉关注机制的处理阶段；代表个从目标轨迹矩阵以及动态线索中提取的帧；其中

softmax操作是在轴上进行操作

其次，由此我们可以得出富动态特征对象特征矩阵，算式如下：

是动态线索在个帧上效果的作用的加和，可被视为帧的权重，该权重加强了每个帧在跨越关于动态线索的个帧的运动轨迹下，每个帧的重要性

接着，使用帧合并操作将短期动作结合为长期动作并制作合并阵图，从而做到对分层帧操作的更深度理解：通过富动态特征对象特征矩阵及其权重可以由下列等式执行帧合并操作

是由作为权重计算加权平均值，并由该值将相邻的帧组合成为一个帧的操作

合并轨迹阵作为下一阶段产生的输入值

将以上操作执行次之后，产生分层交叉关注机制的结果；逐步的帧合并操作以及时间范围的扩展体现了从短期动作到长期动作理解的分层动态感知；由以下等式得到：

已被拓展到与匹配的维度从而得以进行加算；作为交叉关注机制的结果传输到FFN层；

4、对比式学习

1）原样本选择

论文将最接近ground truth、成本最低的视频词元作为“锚”，将其他在迷你堆内的对象词元作为负样本，但由此导致了两个问题：

（1）缺乏足量的对应正样本

（2）迷你堆的大小限制负样本的数量

为解决这些问题，文章引入了“内存银行”

2）内存银行

由于在训练过程中存在及其庞大的视频词元量，若像传统方法一样直接存储所有的视频词元，将会导致极大的空间浪费，拖慢整个训练过程

因此，文章引入内存银行以收集每个目标的代表性词元质心,内存银行的每一个元素都标志一个预计视频词元的质心；是数据库中的对象，我们使用预定的锚点词元特征阵更新对应的目标对象质心特征阵

为内存银行中目标对象映射的索引，更新速度由超参数β控制

我们使用面向对象的对比式学习公式：

τ是温度超参数，正样本m+是目的对象的特征质心（包括），N是从中不同对象提取出的个负样本；

论文优先使用属于同一类同一视频的负样本，因为他们更可能具有相似的外貌且在对比式学习中作为在不同动作上具挑战性的样本；在次迭代后再计算以确保稳定的训练历程

3）训练目标

使用每帧的输出和面向帧的ground truth之间的匹配损失，以及每帧的输出和面向视频的ground truth之间的匹配损失

优化模型的训练目标：

用于平衡对比学习损失

四、结

该论文主要提出了有别于传统的将动态静态一同分割的，将动态与静态解耦分析，并对动态感知使用分层感知以加强时间理解的方法，并借用memory bank和contrast Learning加强感知的技术