一、创新点
- 已有的VSOD模型在遇到快速运动、动态背景和非刚性变形等困难场景时效果不佳。本文提出了一种新的端到端时空整合网络(SIT-Net)检测视频中的显著对象。
二、算法框架
该算法包括三个关键步骤:
- 特征融合:网络被设计为通过级联、卷积和循环连接实现空间信息和时间信息的交互。这样生成的时空深度特征就可以有效的表征视频中的显著对象。
- 显著性预测:为了确保产生的显著性图具有明确定义的边界,源自空间域和时间域的时空边界线索被并入该步骤。
- 显著性融合:将原始或初始信息,即当前帧和光流图像,用于提供用于在融合步骤中校正预测结果的补充信息。
为了为了帮助网络优化并随着网络深度的增加获得更准确的结果,K. He, X. Zhang, S. Ren, J. Sun, Deep residual learning for image recognition, in: Computer Vision and Pattern Recognition, CVPR, IEEE, 2016, pp. 770–778.中采用的快捷连接被施加在位于特征聚合和显著性融合步骤中的卷积块上,即Conv-B1和Conv-B3。
为了使我们的模型易于训练并获得有希望的结果,我们设计了图1所示的基于“快捷连接”的卷积块Conv-B1-i。
引入了循环连接,以进一步加速深度功能的交互。
本文直接用论文 Amulet: aggregating multi-level convolutional features for salient object detection中的图像显著性模型来提取特征。
2.1 总体框架
当前帧及其光流图像首先被馈送到特征提取模块,其产生初始空间和时间深度特征。接着对初始深度特征进行特征聚合,得到时空深度特征。
通过结合边界线索,通过使用空间和时间线索,我们执行显着性预测这些时空深度特征图,并获得粗糙的显着性预测。
最后,通过合并原始信息,即当前帧和光流图像,我们对预测结果进行显著性融合,生成最终的显著性图𝐒𝑡。
2.2 特征提取
输入:当前帧It和光流图像OPt,其中OPt使用大位移光流法(LDOF)获得,被进一步转换成由3通道颜色编码的光流图像。
输出:对应的初始空间深度特征{𝐈𝐅𝑆𝑡i𝑖}5𝑖 =1和初始时间深度特征{𝐈𝐅𝑇𝑡i𝑖}5𝑖 =1。这些初始深度特征的通道数都设置为320,并且这些初始深度特征具有不同的空间分辨率(如上图分别为256×256、128×128、64×64、32×32、16×16),可以通过使用VGG-16中的五个卷积块来获得。
2.3 特征融合
沿着通道方向连接属于相同分辨率的初始空间深度特征和时间深度特征(图中黄色部分),通过公式:
- 接着,由于递归连接可促进信息交换,因此用卷积块Conv-B1-i对𝐈𝐅𝑆𝑇𝑡𝑖进行混合,这些卷积块通过递归连接连接在一起。
- 每个卷积块后跟一个3×3的卷积层,(提供核权重W,以及偏置b)
- 在每个级别中𝑖,卷积块Conv-B1-𝑖将𝐈𝐅𝑆𝑇𝑡𝑖高级聚合结果𝐅𝑆𝑇𝑡𝑖+1作为输入,并且产生新的聚合结果。过程可定义:
当i=L时,此时L为层数,即L=5,卷积块Conv-B1-𝑖可以表示为𝑓𝐵1𝑖(𝐈𝐅𝑆𝑇𝑡,𝑖),即从高级聚合结果中去除递归连接。(不用递归连接融合上一层的高级聚合结果)
当i<L时,Conv-B1-𝑖由𝐂𝐚𝐭(𝑓𝐵1𝑖(𝐈𝐅𝑆𝑇𝑡,𝑖),𝐅𝑆𝑇𝑡,𝑖+1)表示。此时可递归连接i+1层的高级聚合结果。
初始的低分辨率时空深度特征被循环地用于生成具有高分辨率的深度特征。这有利于空间信息和时间信息之间的有效交互。
2.4 显著性预测
基于所获得的时空深度特征图,可以执行显着性预测。首先通过使用初始空间和时间深度特征来生成时空边界线索。
那么如何获得时空边界线索呢?
- 首先,我们将两个1 ×1卷积层应用到对应于空间和时间信息的conv 1-2层,分别产生空间边界线索𝐁𝑆𝑡和时间边界线索𝐁𝑇𝑡。
- 其次,我们连接两个边界线索得到时空边界线索
最后,通过结合时空边界线索𝐁𝑆𝑇𝑡,显著性预测将卷积块Conv-B2部署在每个时空深度特征图上𝐅𝑆𝑇𝑡𝑖,我们可以获得粗略的显著性图𝐂𝐒𝑡
𝐖𝑝 𝑖 并且𝒃𝑝分别𝑖表示Conv-B2-中的内核权重和卷积层的偏置𝑖。此外,𝜎表示ReLU激活函数。
其中,Conv-B2为:
此时的结果为:
2.5 显著性融合
利用粗糙显著性图𝐂𝐒𝑡𝑖𝐿𝑖的彼此互补。
为了获得高质量的显著性图,可结合原始(或初始)信息,即当前帧𝐈𝑡和光流图像𝐎𝐏𝑡,进入显著性融合步骤。
- 先将原始信息和获得的粗略显著性图连接成16通道图像𝐅𝐎𝐂𝑡,其可以写为:
- 之后,将16通道图像𝐅𝐎𝐂𝑡馈送到卷积块Conv-B3中。
S𝑓 𝑡 和𝐒𝑏𝑡分别表示每个像素属于显著对象或背景的概率。𝑓𝐵3表示卷积块Conv-B3,Conv-B3表示为:
- 最终的显著性图St,(图4中的c),他每个像素的值计算方式为:
最终的显著性图St更均匀地突出突出对象区域,并且显示更精确的细节,如围绕奶牛颈部的铃(顶部示例)和汽车上的扰流器(底部示例)。