摘要:提出一种基于梯度流场和能量优化的视频显着性检测新方法。提出的梯度流场结合了两个独特的特征:1)帧内边界信息和2)帧间运动信息一起用于指示显着区域。基于梯度流场中帧内和帧间信息的有效利用,该算法具有足够的鲁棒性,能够在具有各种运动模式和外观的复杂场景中估计物体和背景。然后,我们使用从梯度流场估计的前景和背景信息引入局部以及全局对比显着性度量。这些增强的对比度显着提示一致地突出显示整个对象。我们进一步提出了一种新的能量函数来鼓励输出显着图的时空一致性,这在以前的视频显着性方法中很少被探索。实验结果表明,该算法优于最先进的视频显着性检测方法。
索引术语 - 视频显着性,能量优化,梯度流场,时空显着能量。
I. I NTRODUCTION
人类视觉系统在视觉上选择视觉上重要的区域方面非常有效。 这种认知过程使得人们无需训练即可轻松地实时解释复杂的场景。 显着性检测最初是预测人类观察者可能注视的场景位置的任务[3],[9]。 最近,它已经扩展到检测显着的对象,这是我们论文的重点。 显着物体检测的输出通常是显着图,其中每个像素的强度表示该像素属于显着对象的概率。 在过去的几十年中,显着物体检测因其广泛的应用得到了很多关注,如无监督图像分割[35],[36],图像重定位[13],[23],[24],物体识别和检测[ 31],[34],[42],视频压缩[41]和摘要[30],[32]。
静止图像显着物体检测的任务是确定静态场景中最突出和最关注的物体。 为了实现这一点,已经提出了许多图像显着性算法。 一般来说,这些方法可以分为自下而上或自上而下的方法。 自上而下的方法[12],[19],[26],[27],[47]是目标导向的,需要对图像上下文有明确的理解。 因此,特定类别的监督学习是一个经常采用的原则。 大多数显着性估计方法基于自下而上的视觉注意机制,它独立于图像内容的知识并利用各种低级特征,如强度,颜色和方向。
虽然图像显着性检测已被广泛研究,但计算视频的时空显着性是一个相对较新的问题。对于视频中的显着性检测,对象的运动线索为视觉前景提供指示;然而,各种背景运动也为定位运动物体带来困难。迄今为止,有几种方法[7],[8],[11],[14],[20],[37],[50]设计用于视频显着性,其中大多数方法仅将运动特征添加到图像显着性模型(例如[7],[8]和[37])来处理额外的时间维度。此外,这些方法通常忽略视频显着性应该在时空上一致的事实,即前景/背景区域的显着性值不应该沿着时间轴显着改变。这些方法中的大多数在逐帧处理输入视频的基础上,没有对整个视频序列进行全局显着性计算。真正的时空处理应该考虑时空一致性来设计全局显着性算法。
感知研究[2],[4],[5]表明低级视觉显着性中最重要的因素是对比度;一种称为对比度先验的假设被用于几乎所有自下而上的显着性检测方法中,而不管是图像显着性[6],[9],[17],[28],[29],[38],[51 ]或视频显着性[7],[8],[15],[16],[33],[49]。这个基本假设指出,如果像素/贴片(patch)在某个上下文中的外观是高对比度,则它是显着的。尽管这些基于对比的先前方法已经在他们自己的方面取得了成功,但仍然存在一些常见的和显着影响的问题。通常,这些方法只能检测高对比度的边缘,并难以均匀地突出整个对象,从而减弱平滑的对象内部。另一个相关的问题是选择一个合适的周围环境范围。周围范围过大导致难以区分前景和背景中的相似颜色,而相反的方法导致对象衰减。
为了解决这些开放问题,我们提出了一种新颖的显着性优化框架,用于检测视频中的显着对象。首先,我们用提出的梯度流场利用不同的特征来解决这些问题。根据Tresiman和Gelade [1]提出的着名特征整合理论(FIT),运动和边缘等基本视觉特征在人类关注前阶段进行处理,以获得视觉注意。根据这一理论,我们的梯度流场深入地考虑了边缘和运动特征,它们考虑到不同的前景运动模式,抵制错误的运动估计并指示显着区域的位置。受益于对前景和背景的估计,我们进一步引入了局部和全局对比显着性测量,这些测量能够弥补对比度先验方法的缺点,并统一地突出显示整个对象。最后,我们提出了时空能量函数来鼓励显着性图的时空一致性,这对于视频显着性检测至关重要。这项工作的源代码将在1。与现有方法相比,该方法提供了以下贡献:
•提出了一种新颖的视频显着性检测方法,用于自动定位对其外观和运动模式具有低限制的视觉前景。
•我们提出了一个梯度流场,它深入地结合了帧内和帧间信息来有效地检测显着区域。
•提出时空显着性能量函数来鼓励输出视频显着性地图的时空一致性。
III. OUR APPROACH
我们工作的目标是产生精确的时空显着性地图,其中感兴趣的对象被发现并且前景和背景在整个视频中被分开。 我们的方法有三个主要步骤:显着性估计,显着提示细化和时空显着性优化。
A. Saliency Estimation
给定一个输入视频序列,我们首先获得每帧的超像素以保留视频内容的初始结构元素,而不需要的细节被有效地简化和忽略。保留帧中的强边或轮廓作为超像素之间的边界。这些边界和不连续性揭示了视频帧的重要内容(参见图1(e)的底部图像)。然而,在具有高度纹理化背景区域的复杂场景中,颜色不连续性不够明显(参见图1(e)的顶部图像)。运动信息可合理地假定为有助于显着区域检测,因为在光流场中突然变化的像素经常引起人们更多的关注(参见图1(b)的顶部图像)。尽管如此,运动信息本身并不足以确定显着区域,因为运动物体可能具有非常小的光流,或者背景是动态的(参见图1(b)的底部图像)。
根据上述分析,我们将不连续性和运动信息整合到我们的显着性优化框架中,这比单独一个更可靠。 设I = {I 1,I 2,...,}为输入视频I的一组帧。我们首先应用SLIC [25]将每帧I k抽象为超像素R k = {R k, R k,2,...,},并且I k的相应抽象表示为I k' (见图1(d))。 然后,我们计算抽象帧I k在位置x(x,y)处的颜色梯度幅度M k c :
我们采用大位移运动估计算法[39]来计算光流。 令v k为I k的光流场,然后我们计算v k的梯度大小:
颜色梯度大小M k c和光流梯度大小M k o如下集成到帧f k的时空梯度场M k中:
在实践中,我们发现当max(M o)> 1时,M o具有更强的判别能力。因此,指数函数被用来强调M k o。 λ是指数函数的比例因子,我们在我们所有的实验中设定λ= 1。当max(M o)≤1时,场景几乎是静态的,非常小的光流不具有区分性。图1(c)展示出了来自不同视频的两帧之间的光流梯度大小M o。从上面我们可以发现,当M o的最大值大于1时,揭示移动物体是非常有用的。当物体接近静止时,例如,图1中的船缓慢移动时,M o是非常小的并且变得不那么有效(参见图1(c)的底部图像)。显然,时空梯度场(见图1(f))能够揭示视觉上重要的区域的位置,与仅考虑颜色不连续性或运动信息相比,这是更好的。基于这种努力,我们在下面提出了一种高效且鲁棒的显着性估计算法。
我们可以想象,许多流从帧的四边开始,并沿着垂直/水平方向,在相对一端结束(见图2(a))。 当流经过当前帧时,流的值将随着相应的时空梯度场的值而增加。 设帧I k的大小为n×m,我们定义从I k左侧到右侧的梯度流量F l如下:
从左到右的梯度流Fl包含帧的同一行中的所有像素。 类似于Fl的定义,我们定义从右到左的梯度流Fr,自顶向下的梯度流Ft和向下的梯度流Fd:
对于帧I k,流F的路径中的像素(例如从左到右的梯度流fl)将是。 然后,我们在位置x(x,y)处表示流量的值如下:
当通过时空梯度场时,从左到右的梯度流Fl的值将增加(参见图2(b))。 基于梯度流,我们建立一个梯度流场T如下:
从(7)中我们可以发现,T在x处的值是M在x处的值,通过加上其4邻居的最小值。 图2(c)显示我们的梯度流场T可以正确估计视觉上重要的区域。 然而,梯度流场T将受其邻居的异常值影响,因为我们只考虑4邻居。 T对一些噪点也很敏感。 这是因为梯度流只考虑同一直线上的所有点,而梯度流不能通过这些噪点。 因此,我们在(6)中重新定义了我们对梯度流的定义如下:
这样,梯度流考虑所有周围(2t + 1)梯度流。 (6)可以看作是t = 0时(8)的一个特例。图3给出了由(7)和(8)计算的不同t值梯度流场的图示。 当t∈{1,2,3}时,梯度流场对视觉重要图的估计比t = 0时的估计更准确。然而,当梯度流场的值增加太多时,梯度流场的性能会下降。 这是因为当考虑到更多的梯度流时,会忽略更多的物体边界(参见图3(e)和(f))。 因此,我们在所有实验中将t的值设为2。
然后,我们在区域级别平均梯度流场。 给定I k的梯度流场T k,我们可以得到下面的区域平均梯度流场T k R:
其中Rkx表示像素x所属的区域,xr表示区域Rkx中的像素,并且| Rkx | 表示区域R x中的像素的数量。 然后我们用[0,1]中的值对TkR进行归一化。
我们的梯度流场可以在大多数情况下获得满意的结果,但当光流不正确时,它会引入不准确的显着性结果。 如图4(b)所示,上图显示了具有可接受的运动估计的光流梯度幅度M o的一个例子。 当底部的运动估计是不正确的,这种情况使得相应的时空梯度场M(参见图4(c)的底部图像)不可靠。 图4(d)显示了我们对应于两个相邻帧的基于梯度流场的显着性结果。 两个显着图非常不同 - 最顶层的图比底层图更精确。 这是因为底部帧的光流估计不理想。
对于输入视频序列,我们可以观察到相邻帧之间的视觉背景是一致的。 因此,我们可以安全地假设一帧中的视觉背景区域在下一帧中也不显着。 基于这个假设,我们首先重写(1)如下:
这意味着当位置x的视觉重要性小于η(η∈[0,1])时,我们将通过乘以εc(εc∈[0,1])来减小当前帧I k中位置x处的颜色梯度幅度 ])在前一帧I k-1中。 同样,(2)被改写为:
我们将参数η的值设置为0.2。 这意味着当其在梯度流场中的相应值小于0.2时,该像素/区域被视为视觉背景。 我们使用集合B k来指示第k帧中的背景区域。 图4(g)显示了背景区域B k的例子。 图4(f)显示了我们使用(10)和(11)的基于梯度流场的显着图。 与图4(d)的结果相比,图4(f)的结果显着改善。 虽然前景的一部分并不显着,但观察到物体和背景大致分离。 在下一步中,我们将进一步引入全局和局部显着性度量,以利用此属性生成更均匀的显着图。
B. Saliency Cues Refinement
Local Saliency Cue:许多工作[6],[9],[17],[28],[29],[38],[51]都将区域与其周围范围的对比作为显着提示,计算方法为出它与其他地区的颜色差异的总,以它们的空间距离加权。 这样,在帧I k中的超像素R k,p的对比显着性提示可以写为:
其中和
是区域R k,p和R k的颜色,p? 分别。
控制两个区域R k,p和R k之间的空间影响, p?。
是R k,p和R k的区域中心之间的欧几里德距离的平方。
利用φ(R k,p,R k,p?)项,近距离区域比远距离区域具有更大的影响。参数σ控制邻域的范围。显然,(12)测量所有周围区域的颜色对比度。然而,这种基于区域对比度的显着性测量的一些局限性是显而易见的。首先是区域不同于周围区域应该突出显示,无论这个区域属于前景还是背景。其次,这种策略会导致物体衰减问题。第三,作为特定尺度阈值的参数σ对于基于对比度的显着提示非常重要,难以设置合适的值。如果σ很大,所有区域将以近似全局的方式进行比较。当σ被设置为小值时,将考虑小的和不适合的邻域。在以前的方法中,σ的值是手动设置的。这说明邻里范围的界定不明确,需要进一步开发。这些限制主要是因为这种显着性测量方法缺乏确认周围背景的方法。图5(b) - (d)说明了这些上述局限性的几个例子,该图显示了三种有代表性的基于对比的先验方法产生的显着性结果[28],[29],[38]。为了克服这些缺点,我们通过使用我们的梯度流场来有效地检测背景区域,将前景背景对比度假设重新引入显着性检测问题。我们假设与周围背景高度不同的区域是显着的。增强的显着性测量,称为周围背景对比度,被定义为
(13)测量与周围背景区域的颜色对比度,可以视作从一个区域到它的周围背景的平均外观距离。函数φ? (R k,p,R k,p?)被定义为
函数D s(R k,p)表示R k,p和的其他背景区域B k的区域中心之间的最短欧几里德距离。根据式(13),与背景趋于相比,具有高颜色对比度的R k -B k的对象区域接收更高的显着性值。只需考虑B k周围的背景区域,就可以有效地抑制R k - B k背景区域的显着性值。根据式(14),如果一个区域在空间上接近于背景,则D s(·)的值小,并且对比度测量主要在相对较小的范围内受影响。如果D s(·)的值较大,这意味着一个区域远离背景,该区域将在较大程度上与背景区域进行比较。 (14)强迫R k - B k的区域与周围背景进行比较,并且函数D s(·)能够自动调整每个区域的邻域范围,从而弥补了先前基于对比度先验的方法的局限性。
Global Saliency Cue:周围的背景对比度测量是一种局部显着性提示,它考虑了区域与周围背景之间的平均距离。 我们进一步定义一个超像素的全局显着性度量为它到虚拟背景的最短距离的长度。 任何两个超像素之间的距离考虑颜色距离和梯度流场距离,其被定义为
其中c i(T k R(r i))和c i? (T k R(r i + 1))分别是区域r i和r i + 1的梯度流场值。 距离D g可以通过约翰逊算法有效地解决[18]。 超像素R k,p的全局显着性提示gC(R k,p)是从我们的梯度流场提供的R k,p到背景超像素B k的最短距离。
如果超像素在期望对象之外,则其前景概率很小,因为可能存在相对较短的背景路径。 通过该路径连接的超像素与颜色空间和梯度流场中的背景超像素差异较小。 而如果超像素
在物体内部,则该超像素不同于背景超像素,这增加了距离
。
对于帧I k,我们将全局显着性提示gC和局部显着性提示lC归一化到[0,1]的范围。 因此,我们结合这些项来计算B k中每个超像素的显着性值如下:
在实践中,我们发现将显着性设置为周围背景对比度bC和全局显着性提示gC的最小值将产生出色且均匀的显着性结果(参见图4(h))。
C. Spatiotemporal Saliency Optimization
在前一步中,我们通过考虑每个帧的局部时空一致性来检测显着区域并获得满意的结果。 因此,我们进一步提出时空显着性能量函数来保持整个视频显着性在时间上一致。
设Q是视频的所有超像素(Q = R 1∪R 2∪...)的集合。 为了方便,我们取Q = {1,2,...,N},| Q | 对于超像素q∈Q,我们定义
其中xq =(xq,yq)指示超像素q的中心点的坐标,并且kq 是超像素q属于的帧的索引。
因此,超像素q的显着性是由最后一步计算的。 我们提出一个能量函数来鼓励整个视频显着图的时空一致性。 每个超像素的最终显着性定义为s q,它通过所提出的时空显着性能函数进一步优化如下:
其中集合包含一帧内的所有空间上相邻的超像素和邻域中时间上相邻的超像素:如果
,超像素q和q? 在时间上相邻。 参数α是用于平衡Funary和Fsmooth之间的相对影响的正系数。
第一项Funary定义了一个单一约束条件,即每个超像素倾向于保有对其显着性的初始估计。 平滑项Fsmooth给出了时空一致性约束,即当整个视频序列的所有时空相邻超像素相似时,它们应该具有相同的显着性。
是一个加权函数,给出时空相邻超像素q和q?的相似性度量。
表示超像素q的平均CIELab颜色值。
基于s = [s q] N×1和s * = [S k C q(x q)] N×1,二次能量函数F可以表示为以下矩阵形式:
W = [w q,q ] N×N and B = di ag([b 1 , · · · , b N ])。
矩阵B对角线元素的? 度量B是权重矩阵W的度数值:b q = q N? = 1 w q,q?。 (19)可以通过凸优化求解,最终得到超像素s的显着性如下:
其中E是单位矩阵,我们在我们的实验中为所有测试视频设置参数α= 0.5。