本文出自论文Pyramid Dilated Deeper ConvLSTM for Video Salient Object Detection, 主要提出了一个视频显著性目标检测模型,由PDC模块和PDB-ConvLSTM模块组成。
本文提出了一个快速的视频显著性目标检测模型,它基于一个新的递归网络架构,被命名为PDB-ConvLSTM。一个金字塔扩张卷积(PDC)模块被首次设计用于在多尺度同时提取空间特征,这些空间特征被连接起来,并被输入到一个扩展的DB-ConvLSTM结构来学习时空信息。进一步讨论伴有一个类PDC结构的DB-ConvLSTMs,通过采用几种扩张的DB-ConvLSTMs来提取多尺度的时空信息。
一、简介
- 视频显著性检测旨在发现最吸引人注意力的每个视频帧中最感兴趣的部分。在视频显著性检测的研究被分为两类:眼动预测来定位人眼的关注点、显著性目标检测来高亮最显著的目标。为了在视频显著性检测中应用深度学习技术,有两个问题需要被考虑:第一个问题是描述时间和空间信息,然后如何将它们结合起来;第二个问题是数据,一个足够大、密集标签的视频显著性训练集是必要的,但很难获得。
- 为了解决上述问题,我们的模型基于一个卷积LSTM结构(ConvLSTM),它可以获取视频序列的长短期记忆,从而获得时空信息来有效融合时空特征。为了鼓励在LSTM单元间双向交换信息,我们提出了一个较深的双向ConvLSTM结构(DB-ConvLSTM)来以一种级联和较深的方式学习时间特征。后向层的ConvLSTM单元被建立在前向层上,而不是直接连接到输入层上。前向ConvLSTM单元每个关联到一个特别的输入帧,可以与后向层交换它们的序列知识。我们还引入了一个多尺度接收域模块–金字塔扩张卷积(PDC),从而来获得更多的空间细节。
- 在模型的训练方面,除了视频显著性数据,我们还利用大量静态显著性数据来训练我们的模型。通过这种方式,我们的网络能够捕捉到不同的目标外观,它们对视频显著性预测很重要。我们进一步展示到所提出的视频显著性模型,配有一个CRF分割模块,在两个流行的视频分割基准数据集(DAVIS和FBMS)上获得最好的性能,展示了我们模型的高可用性。
二、相关工作
- 图像/视频显著性目标检测:卷积视频显著性检测方法提取时间和空间特征,然后将它们融合在一起来产生一个时空显著性映射。
- 无监督视频分割:无监督视频主对象分割是与我们的方法最相关的视频分割主题,其目的是利用对象级信息(如对象建议)和各种启发式方法提取视频序列中的主对象。这些模型有类似的目标与视频突出的对象检测,除了它们寻求得到每个视频帧的二进制前/背景掩码。
三、方法
-
所提出的视频显著性目标检测模型由两个关键成分组成,第一个是金字塔扩张卷积(PDC)模块,被用来明确地在多尺度上提取空间显著性特征,这个主要通过并行的不同采样比例的扩张卷积层来实现。第二个是金字塔扩张双向ConvLSTM(PDB-ConvLSTM),以一种级联的双向特征学习过程来提高。PDB-ConvLSTM将来自PDC模块学习到的空间特征作为输入,然后输出所提高的时空显著性表示,来作为最终的视频显著性目标预测。
-
使用PDC模块的空间显著性学习:我们利用了一个PDC模块,它由一组不同扩张比例的扩张卷积层组成,用来强调多尺度空间显著性表示学习。令 F ∈ R ( W ∗ H ∗ M ) F\in R^{(W*H*M)} F∈R(W∗H∗M),扩张卷积层的核为 C k ∈ R c ∗ c ∗ C C_k\in R^{c*c*C} Ck∈Rc∗c∗C,其输出特征映射$T_k =C_k \circledast F $ 。如果我们从适当的距离和适当的空间环境来看,一个地区将是相当突出的。之后多尺度的空间特征 { T k } k = 1 K \{T_k\}^K_{k=1} { Tk}k=1K被连接到一起,接着被输入到PDB-ConvLSTM,于是这个网络能够自动学习到尺度的重要性(例如从一个适当的距离学习显著性特征)。受激励于残差连接,我们将原始输入 F F F和扩张输出 T T T连接在一起,最后的输出特征 X ∈ R W × H × ( K C + M ) X\in R^{W\times H\times (KC+M)} X∈RW×H×(KC+M), X = [ F , T 1 , T 2 , . . . , T K ] X=[F,T_1,T_2,...,T_K] X=[F,T1,T2,...,T