一、摘要
问题:
如今VSOD已经是计算机视觉内一个很重要的领域,如今最先进的VSOD模型大多遵循短期的方法。那么什么是这种短期的方法呢?它是指仅考虑当前有限的连续帧去动态的确定空间和时间显著性融合之间的平衡。但是,这种短期的方法是有一定局限性的,那么这种局限性是什么呢?这是因为我们的视觉系统是一个典型的长期方法,因此这些VSOD方法所用的短期方法是与真实的视觉系统机制起冲突的。因此当前流行的模型得到的结果往往是失败的。
解决
那既然知道了这个问题,所以本文提出了一个长期的方法。那如何实现长期的方法呢?我们可以将顺序的VSOD任务转化为数据挖掘问题。即提前将输入的视频序列分解为对象提议,之后由易到难的方式尽可能多的挖掘显著对象提议。并且因为所有的提议对象都可以同时使用,因此这是一个长期方法。
优化
我们在解决该问题时候挖掘了很多显著对象,那么哪一个是我们要找的显著对象呢?因此这里我们提出了一个在线更新方案,它可以抓住最具代表性和值得信赖的模式配置文件的显著对象,输出带有丰富的细节和平滑的空间和时间的显著性地图。
二、主要内容
上面也说了,要解决这个问题需要找到一种长期的方法,那么在本论文方法提出之前有没有关于长期的方法呢?有。
但为什么不直接利用这些方法呢?
- 因为已经存在这种长期的方法都不能充分利用长期信息,但本论文的方法是全局的,它的关键帧选择和迭代过程都遵循一个完整的长期方式。
- 另外,与之前的方法比,本论文的方法涉及更全面。
显著对象建议的挖掘过程:
- 这是一种长期的方法,之前进行VSOD需要逐帧的提取特征,现在只需要从易到难的方式迭代挖掘尽可能多的显著对象提议,这种方法得到的所有对象建议属于不同的帧。并且由于所有的对象提议在挖掘过程中同时使用,所以他不需要考虑复杂的时空平衡。
- 在早期迭代中能够挖掘到一些简单的对象提议,接着可以学习这些挖掘到的简单对象提议的一致性,之后用它作为辅助去挖掘更难的对象提议。
- 当所有的显著对象建议被挖掘,使用ISOD模型(它可以在显著对象建议上在线更新/微调,之后逐帧输出显著图)
主要贡献:
- 第一次将有序的VSOD任务转换为无序过程,实现了长期方法
- 设计了一种新的基于对象建议的挖掘方法(如上图所示)
- 提出了一系列在线显著性细化策略,确保我们的显著性推理过程能充分利用长期的挖掘过程,产生准确的结果和清晰的对象边界
三、具体细节
3.1 选择对象提议
利用已有的工具SEOD去获取对象提议,对于单个帧,会根据对象性置信度对所有的对象提议排名,选择置信度最高的十个对象提议。所以如果有T个帧的视频序列,那么一共有N = T×10个对象提议。Pi表示第i个对象提议。
有了这些对象提议,接下来我们需要找出这些对象提议中哪个是显著的提议。大概过程如下图:
主要思想:迭代的从所有对象提议中由易到难的挖掘所有潜在的显著对象的提议。每次迭代只有一小部分Pi能确定是显著或不显著。
之前也说了,当我们确定所有的显著对象提议后,就可以利用在线微调方案将这些显著对象提议转换为逐帧的显著性图,流程如下:
3.2 粗略定位显著对象提议
在3.1中提到,我们找到所有的对象提议后,要找到这些对象提议哪个是显著对象提议。那么如何实现这一功能呢?
-
我们对P中的每个提议,使用预训练的ResNet 18去提取对应的语义特征fi,那么P的深度特征则可以表示F ={f1,f2,…,fN}
-
基于每对F之间的L2相似性,可以把所有的对象提议聚类到K个聚类中,聚类过程如下:
这里Ci表示第i个聚类,聚类用的K-means -
为了粗略的定位显著对象提议,我们可以计算‘聚类级显著度’,之后选择显著度高的显著对象作为显著聚类。并且由于一个显著聚类的对象提议往往表现非常强的显著线索,因此我们可以使用平均的‘运动显著性’来表示聚类级显著度。
-
从C中选择v个簇作为显著簇(其中约束v<0.5×K),v可由以下公式获得。
其中PMSi = {PMSi ⑴…,PMSi(g)}是每个元素表示运动显著性值的集合,例如PMSi(1)表示第i个聚类中的第1个对象提议的运动显著性值(1维),g是该聚类中的对象提议的数量;函数avg(Ci)返回第i个聚类中的所有对象提议的平均运动显著性值,因此ams是K维向量;函数DES(·)将其输入元素按降序排序;∇是一阶导数运算。 -
所以动态v依赖于聚类Ci中哪些对象提议是显著的。
3.3 运动显著性
在3.2中提到,可以使用平均的‘运动显著性’来表示聚类级显著度,那么这个运动显著性到底是什么呢?
如果已经对光流数据进行微调,那么就可以直接通过现成的ISOD模型来获得运动显著性线索。
所以我们首先要进行光流数据微调:
两帧之间对应的光流OFj可被用于ISOD模型微调,OFj可以通过:
获得,其中FlowNet是现成的光流工具,输入两个连续的视频帧,输出是表示垂直和水平方向上的空间位移的两个梯度矩阵,ce{·}表示颜色加密工具,其将上述两个光流矩阵转换为三维矩阵(RW×H×3),在转换后,所有梯度的方向和值由不同颜色均匀编码。
有了OF和GT,那么就可以用他们去微调现成的ISOD模型,ISOD深度模型的微调的损失函数表示为:
如上图所示,我们在微调之后,可以将OF作为ISOD模型的输入,输出运动显著性图,表示为:
其中θ是可学习的隐藏参数,M可以是任何遵循典型编码器-解码器结构的端到端ISOD模型(我们选择CPD 19 ),MSi是运动显著性图。
如今已经得到了运动显著性图,但由于光流质量限制,运动显著图通常在对象边界处模糊,因此只能粗略的定位显著对象提议。
3.4 精细定位显著对象提议
在粗略定位过程中,我们选择了v个显著的簇,但这里有两个问题:
- 这些v个显著簇可能包含一些非显著对象提议
- 一些显著对象提议可能属于{K-v}个非显著簇内
可用二进制分类器来解决这两个问题。
对于出现这两个问题的对象提议,二进制分类器可以作为一个指标,告诉哪些对象提议更有可能是显著的。那么这个二进制分类器如何获得呢?它可以通过属于显著簇或非显著粗的实例进行弱训练
在不知道ground truths的情况下,从显著簇中选择一些最值得信赖的对象提议作为正实例(PseudoGT = 1)。从非显著簇中选择最值得信赖的负面实例(PseudoGT = 0)。
基于这些正实例和负实例,一共有Q个实例(Q<N),二元分类器的损失函数是一个典型的交叉熵损失,可以表示为:
其中FC(·)表示广泛使用的多层全连接层,fq表示在当前显著和非显著聚类分区下选择的第q个对象提议的高维深度特征,PseudoGTq是fq的对应二进制标记。
由于二进制分类器的性能与伪标记(PseudoGT)的质量正相关,因此应该让不太可信的对象提议排除在伪训练集之外,为了达到这一效果,本文使用两种测量方法:
- 到聚类的质心的距离和
- 每个对象提议的运动显著度
3.5 迭代挖掘更可信的对象提议
通过训练的二进制分类器,我们可以为更多的对象提议确定显著性标签,这些提议比那些属于Pos或Neg的提议相对更不可信,称他们为‘不确定’对象提议。
对于显著簇(C+)中的每个不确定的对象提议,如果二进制分类器预测它是显著的那么把它加入Pos集合,不显著则加入Neg集合中。通过这个步骤,Pos和Neg集合可以逐渐的扩展以包括更多的特征模式,然后有时候二进制分类器会预测不正确,使Pos和Neg集合中有噪声(即不属于该集合的提议)。那么如何解决这个问题呢?
这里提出了两个额外的约束,我们使用Pos+和Neg+来表示这两种类型的不确定建议。因此,只有属于Pos+或Neg+集合并且满足下面提出的约束的那些对象提议将最终被添加到Pos或Neg集合中。
以Pos+为例,所有提议都通过它们与其集群的平均分布的相似度重新排序。因此,我们将重新排序的Pos+表示为Pos+'。我们仅约束Pos+'中的前γ%提议添加到Pos集合。我们根据经验选择相对松弛值(60%)到γ以平衡多样性和可信度。
之后就是不断的挖掘对象提议,并且二进制分类器的效果会越来越好。
迭代数据挖掘过程:
- 在“迭代1”中,挖掘过程倾向于简单地选择最值得信赖的对象提议(左上角的单元格是最值得信赖的对象提议,而右下角的单元格是具有最小值得信赖度的单元格)
- 在“迭代2”中,选择一些不太可信的对象提议以增强Pos集合的多样性
- 在“迭代3”中,再次,可以选择被先前迭代误检测的一些最值得信赖的对象提议
- 在第三次迭代中,只有一个非常小的对象提议组,因此为了确保效率,可以忽略之后的第四次迭代
四、在线微调
在线模型微调图
它主要包括三部分:
- 分片细化器
- 快速关键帧选择
- 逐帧细化
4.1 分片细化
在前面我们已经能判断哪些对象提议是显著的,为了进一步获得逐帧的显著图,则可以把每个对象提议送到ISOD模型中去获得一个分块显著图。
这里利用CPD模型,并在MSRA10K集合上进行微调,在该集合上将原始图像级训练实例转化为分片实例。如上图第二行所示,能可视化良好分割的分块显著性图。虽然几乎所有的显著物体或微小部分都被分片细化器给分割了。但也存在失败情况(例如第二行左边中间,只检测到了狗腿,遗漏了身子)
现在,得到了分片的显著性图,则可以把它们‘粘贴’在一起得到帧级显著性图。但这种‘粘贴’过程可能会因为上面分割失败而导致帧级显著性图遭受丢失检测,因此需要对‘粘贴过程’公式化:
- 其中FSi表示第i帧Ii的帧级显著性图,假设Ii包含b个显著对象提议,crop函数会根据对象提议Pj提供的坐标从Ii中裁剪出一个块(1<=j<=b)
- PR表示分片细化器
- θ是可学习的隐藏参数
- PR可输出分片显著性图
- Z(·)是一个min-max normalization function
- proj可将输入粘贴到当前视频帧,输出是与当前帧相同高与宽的矩阵
4.2 通过在线模型微调的逐帧细化器
帧显著图(FS)仍有两个问题:
- FS的质量很大程度上取决于先前的显著对象提议定位步骤
- 他的质量也受到分片细化器的影响,最终频繁观察到不完美的FS
因此这里提出了逐帧细化器,只有最值得信赖的FS去引导在线学习过程
在实践中,逐帧细化器可以是仅使用空间信息的任何ISOD模型,由于其轻量级设计,我们只需继续使用CPD作为逐帧细化器。
FS和最终显著性映射图的差异:
快速关键帧选择(选择高质量的FS):
同时考虑时间和空间显著性线索,考虑到高质量FS的共同属性,它们对应的空间和时间显著性图都倾向于高质量图。因此,对于每个帧,我们可以使用空间显著性(FS)和时间显著性(MS)之间的相似性来测量FS的质量程度,因为具有低质量FS的那些帧不太可能具有“极高”的时空显著性一致性。