背景建模与前景检测2(Background Generation And Foreground Detection Phase 2)

本文介绍了一种非参数背景生成方法,该方法基于影响因素描述(ECD)模型,能够从包含混乱运动对象的视频中提取出清晰的背景图像。通过MeanShift过程定位最可靠背景状态(MRBM),该方法对外界因素具有较高的鲁棒性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

背景建模与前景检测2(Background Generation And Foreground Detection Phase 2)

作者:王先荣

    本文尝试对《学习OpenCV》中推荐的论文《Nonparametric Background Generation》进行翻译。由于我的英文水平很差,断断续续搞了好几天才勉强完成,里面肯定会有诸多错误,欢迎大家指正,并请多多包涵。翻译本文的目的在于学习研究,如果需要用于商业目的,请与原文作者联系。

非参数背景生成
刘亚洲,姚鸿勋,高文,陈熙霖,赵德斌
哈尔滨工业大学
中国科学院计算所

摘要
    本文介绍了一种新颖的背景生成方法,该方法基于非参数背景模型,可用于背景减除。我们介绍一种新的名为影响因素描述(effect components description ECD)的模型,用于描述背景的变动;在此基础上,我们可以用潜在分布的局部极值推导出最可靠背景状态(most reliable background mode MRBM)。该方法的基本计算过程采用Mean Shift这一经典的模式识别过程。Mean Shift通过迭代计算,能够在数据的密度分布中找到最近位置的点(译者注:即找到数据最密集的点)。这种方法有三个优点:(1)能从包含混乱运动对象的视频中提取出背景;(2)背景非常清晰;(3)对噪声和小幅度的(摄像机)振动具有鲁棒性。广泛的实验结果证明了上述优点。

    关键词:背景减除,背景生成,Mean Shift,影响因素描述,最可靠背景状态,视频监视

1 引言

    在许多计算机视觉和视频分析应用中,运动对象的分割是一项基本任务。例如,视频监视,多媒体索引,人物检测和跟踪,有知觉的人机接口,“小精灵”视频编码。精确的对象分割能极大的提高对象跟踪,识别,分类和动态分析的性能。识别运动对象的通用方法有:光流,基于时间差异或背景减除的方法。其中,背景减除最常用。背景模型被计算出,并逐帧进化;然后通过比较当前帧和背景模型间的差异来检测运动对象。这种方法的关键之处在于建立并维持背景模型。尽管文献【1-4】提出了很多有前途的方法,但是运动对象检测的精度这一基本问题仍然难以解决。第一个问题是:背景模型必须尽可能精确的反映真实背景,这样系统才能精确的检测运动对象的外形。第二个问题是:背景模型必须对背景场景的改变足够灵敏,例如对象开始运动及停止运动。如果不能适当的解决上述问题,背景减除会检测出虚假对象,它们通常被称为“幽灵”。

    目前已经有了许多用于背景减除的背景建立和维持方法。按背景建模的步骤来分类,我们可以将其分为参数化的和非参数化的方法。参数化的背景建模方法通常假设:单个像素的潜在概率密度函数是高斯或者高斯混合函数,详情请参看文献【5-7】。Stauffer和Grimson在文献【8】中提出了一种自适应的背景减除方法,用于解决运动分割问题。在他们的工作成果中,他们为每个像素建立了高斯混合概率密度函数,然后用即时的近似值更新该模型。文献【9,10】提出了对高斯混合模型的一些改进方法。Toyama等人在文献【2】中提出了一种三层的Wallflower方案,该方案尝试解决背景维持中现存的许多问题,例如灯光打开关闭,前景孔穴等等。Haritaoglu等人在文献【1】中提出的W4方法,该方法为背景建模而对每个像素保留了三个值的方法,包括最大值(M),最小值(N)和最大帧间绝对差值(D)。Kim等人在文献【11】中,将背景值量化到编码本,编码本描述了长视频中背景模型的压缩形式。

    另一类经常用到的背景模型方法基于非参数化的技术,例如文献【3,12-16】。Elgammal等人在文献【3】中,通过核密度估计建立了一种非参数化的背景模型。对每个像素,为了估计潜在的概率密度函数而保留了观测强度值,而新强度值的概率能通过该函数计算得出。这种模型具有鲁棒性,能够适应混乱及不完全静止但包含小扰动场合下的背景,例如摆动的树枝和灌木。

    与参数化的背景模型方法相比,非参数化的背景模型方法具有以下优点:不需要指定潜在的模型,不需要明确的估计参数【14】。因此,它们能适应任意未知的数据分布。这个特性使非参数化的方法成为许多计算机视觉应用的有力工具。在许多计算机视觉应用中,许多问题牵涉到多元多种形式的密度,数据在特征空间中没有规则的形态,没有遵循标准的参数形式。但是,从时间和空间复杂度这一方面来看,非参数化的方法不如参数化的方法有效。参数化的方法产生简洁的密度描述(例如高斯或高斯混合),得出有效的估计状态。相对的,非参数化的方法在学习阶段几乎不需要计算,然而在评估阶段需要高密度的计算。因此,非参数化方法的主要缺陷是它们的计算量。不过一些革新的工作成果已经被提出,它们能加快非参数化方法的评估速度,例如文献【13】中的快速高斯变换(FGT),文献【17】中的新ball tree算法,核密度估计和K近邻(KNN)分类。

    本文专注于非参数化的方法,跟Elagammal在文献【3】中提出的方法有紧密的联系,但是有两点本质上的区别。从基本原理上看,我们用影响因素描述(ECD)来为背景的变化建模,最可靠背景模型(MRBM)对背景场景的估计具有鲁棒性。从计算过程来看,通过使用Mean Shift过程,我们避免了对每个新观测强度值计算概率的核密度估计过程,节约了处理时间。在我们的方法中,仅用帧差即可决定像素的属性。因此能提高背景减除的鲁棒性和效率。

    本文余下的部分按以下方式来组织:第二节中提出了影响因素描述,用于反映背景的变化;第三节详细解释了最可靠背景模型;第四节包含了实验结果;第五节讨论了有待扩充的部分。

2 影响因素描述
    本节讨论影响因素描述(ECD),我们试图通过它来有效的模拟背景的变化。

    背景减除的关键因素在于怎样建立并维持好的背景模型。由于在不同的应用中,摄像机类型、捕获的环境和对象完全不同,背景模型需要足够的自适应能力来适应不同的情况。为了有效的为背景建模,我们从最简单的理想情况开始。在理想情况下,对于视频中的每个空间位置,沿时间轴的强度值为常量C;常量C表示固定摄像机摄录了固定的场景(没有运动对象和系统噪声)。我们将这种情况下的场景称为理想背景场景。但是在实际应用中,很少能遇到这种理想情况。因此,背景像素可以看成是理想背景场景和其他影响部分的组合体。我们将这种方法定义为背景的影响成分描述,包括以下方面:

系统噪声 N-sys:它由图像传感器和其他硬件设备引起。如果环境不太严密,系统噪声不会从根本上影响常量C,仅仅引起适度的偏差。
运动的对象 M-obj:它由实际运动的对象及其阴影引起。大多数时候,它对C有极大的干扰。
运动的背景 M-bgd:它由运动的背景区域引起,例如户外场景中随风摆动的树枝,或者水中的波纹。
光照 S-illum:它表示户外随太阳位置改变而渐变的光照,或者室内灯光的关闭和打开而改变的照明。
摄像机位移 D-cam:它表示摄像机的小幅度位移而引起的像素强度变化。

    场景的观测值(记为V-obsv)由理想背景场景C和有效成分组成,如公式(1)所示。
    V-obsv = C + N-sys + M-obj + M-bgd + S-illum + D-cam    (1)
    在这里我们用符号+来表示影响因素的累积效果。

    实际上,上述影响因素能进一步分为表1所示的不同属性。首先需要被强调的属性是过程,我们可以按过程将影响因素分为长期影响和短期影响。我们沿时间轴将视频流分成长度相等的块,如图1所示。长期表示影响因素会持续数块或者一直存在,例如N-sys、S-illum和D-cam。而M-obj和M-bgd仅仅偶尔发生,不会长期持续,因此我们称之为短期影响。

图1 将视频流分为等长的块

    另一种分类的标准是偏差。我们把S-illum、D-cam、M-bgd看作时间不变的常驻偏差影响。在较长的过程中,这些影响可以看作是对理想背景值C持久的增加(减少),或者替代。以S-illum为例,如果处于室内场景,并且打开照明,在接下来的帧中S-illum可以看成是对C持久的增加。而N-sys和M-obj在不同时刻有随机的值,我们称之为随时间变化的随机偏差影响。上述分析归纳到了表1中。
表1 影响因素的分类
                          长期          短期    
常驻偏差    S-illum,D-cam    M-bgd    
随机偏差    N-sys                  M-obj    

    在此必须阐明以下两点:(1)上述分类并不绝对,取决于我们选择的块长度;但是它不影响我们接下来的分析;(2)也许某人会指出对S-illum的分类不正确,例如行驶汽车的灯光不是长期影响;这种情况下的光照变化属于短期影响,跟M-obj类似,因此我们不把它单独列为独立的影响因素。

    由于S-illum和D-cam对理想背景C有长期持续的偏差,我们将它们合并到理想背景中,得到C' = C + S-illum + D-cam。对这种合并的直接解释是:如果光照发生变化或者摄像机变动位置,我们有理由假设理想背景已经改变。因此将公式(1)表示成:
V-obsv = C' + N-sys + M-obj + M-bgd    (2)
    到目前为止,观测值V-obsv由新的理想背景值C' 和影响因素(N-sys、M-obj、M-bgd)组成。这些影响因素对C'有不同的影响,归纳成以下两点:
N-sys在整个视频流中存在,并对C'有些许影响。因此,大部分观测值都不会偏离C'太远。
M-obj和M-bgd仅仅偶尔发生,但对C'引起很大的偏差。因此,仅仅小部分观测值显著的不同于C'。

    得出以下结论:空间位置的像素值在大部分时间内保持稳定并伴随些许偏差(由于长期存在的随机偏差N-sys);仅仅当运动对象通过该像素时引起显著的偏差(由于短期偏差M-obj和M-bgd)。因此一段时间内,少数显著偏差形成了极值。大部分时间都存在这种属性,不过有时也并非如此。在图2中显示了白色圆心处像素值随时间而变化的图表。图2(a)~(c)节选自一段长达360帧的视频,图2(d)描绘了像素强度的变化。从图2(d)我们可以看出:由系统噪声引起的小幅度偏差占据了大部分时间,仅当有运动对象(及其阴影)经过时引起了显著的偏差。这与影响因素描述是相符的。

图2 显示ECD效果的例子

    我们的任务是从观测值序列{V-obsv t}(t=1....T,T指时间长度)中找到理想背景C'的估计值C'^。通过上述分析,我们发现C'^位于多数观测值的中点。从另一方面来看,C'^处于潜在分布梯度为0和最密集的地方。这个任务可由Mean Shift过程来完成。我们将C'^称为最可靠背景状态。

3 用于运动对象检测的最可靠背景状态

基于第二节所讲的影响因素描述,我们推知:大部分观测值所处区域的中心是背景的理想估计。我们将这个估计用符号C'^表示,并称为最可靠背景状态(MRBM)。定位MRBM的基本计算方式是Mean Shift。一方面,通过使用MRBM,我们能够为混乱运动对象的视频生成非常清晰的背景图像。另一方面,Mean Shift过程能发现强度分布的一些局部极值,这种信息能从真实的运动对象中区别出运动的背景(例如户外随风摆动的树枝,或者水中的波纹)。

3.1 用于MRBM的Mean Shift

    Mean Shift是定位密度极值的简明方式,密度极值处的梯度为0.该理论由Fukunaga在文献【18】中提出,而Mean Shift的平滑性和收敛性由Comaniciu和Meer在文献【19】中证实。近几年它已成为计算机视觉应用的有力工具,并报道了许多有前途的成果。例如基于Mean Shift的图像分割【19-21】和跟踪【22-26】。

    在我们的工作成果中,我们用Mean Shift来定位强度分布的极值(注意:可能有多个局部极值)。我们将最大密度状态定义为MRBM。算法的要点如图3所示,包括下列步骤:

样本选择:我们为每个像素选择一组样本S = {xi},i=1,...,n,其中xis是像素沿时间轴的强度值,n是样本数目。我们直接对样本进行Mean Shift运算,以便定位密度的极值。
典型点选择:为了减少计算量,我们从S中选择或者计算出一组典型点(典型点数目为m,m<<n),并将这组典型点记为P = {pi},i=1,...,m。P中的典型点可以是样本的抽样结果,也可以是原始样本点的局部平均值。在我们的实验中,我们选择局部平均值。
Mean Shift过程:从P中的典型样本点开始运用Mean Shift过程,我们可以得到收敛点m。值得注意的是,Mean Shift计算仍然基于整个样本点集S。所以,梯度密度估计的精度并未因为使用典型点而降低。
提取候选背景模型:由于一些收敛点非常接近甚至完全一样,这些收敛点m可以被聚集为q组(q≤m)。我们能够获取q带权重的聚集中心,C = {{ci,wi}},i=1,....,q,其中ci是每个聚集中心的强度值,wi是聚集中心的权重。每组的点数记为li, i=1,....,q,∑i=1qli=m。每组中心的权重定义为:wi = li / m, i=1,....,q。
获取最可靠背景模型:C'^ = ci*,其中i* = argi max{wi},C'^是第二节提到的最可靠背景模型。

图3 MRBM算法的要点

    对于每个m典型点,第三步中的Mean Shift实现过程依照以下步骤:
(1)初始化Mean Shift过程的起点:y1=pi。
(2)反复运用Mean Shift过程yt+1 = ....直至收敛。(这里我们选用跟文献【19】一样的Mean Shift过程,函数g(x)是核函数G(x)。)
(3)保存收敛点yconv,用于后续分析。

    在对所有像素运用上述步骤之后,我们能用MRBM生成背景场景B。通过上述分析,我们发现背景生成过程的时间复杂度为O(N·m),空间复杂度为O(N·n),其中N是视频的长度。

3.2 运动对象检测与背景模型维持

    生成背景模型之后,我们可以将其用于检测场景中的运动区域。为了使我们的背景模型对运动背景具有鲁棒性(例如户外随风摆动的树枝,或者水中的波纹),我们将k个聚集中心选为可能的背景值。我们将这组集合定义为Cb = {{ci,wi} | wi ≥ θ},i=1,....,k,其中Cb⊆C,θ是预定义的阀值。对于每个新的观测强度值x0,我们仅仅计算x0与Cb中元素的最小差值d,其中d = min{(x0-ci) | {ci,wi}∈Cb}。如果差值d大于预定义的阀值t,我们认为新的观测强度值是前景,否则为背景。

    背景维持能让我们的背景模型适应长期的背景变化,例如新停泊的汽车或者逐渐改变的光照。当我们观察一个新像素值时,背景模型按下列步骤来更新:
(1)对每个新像素值,我们视其为新典型样本点。因此典型样本点的数目变为:m = m + 1。
(2)如果新像素值属于背景区域,假设其强度值与聚集中心{ci,wi}最近,我们将该中心的权重更新为:wi =  (li + 1) / m。
(3)如果新像素值属于前景区域,我们从这点开始运用新的Mean Shift过程,这样可以获取到新的收敛中心{cnew,wnew},其中wnew初始化为:wnew = 1 / m。聚集中心C被扩充成:C = C ∪ {{cnew,wnew}}。

    背景减除的时间复杂度是O(N),背景维持的时间复杂度是O(R),其中N是视频的帧数,R是运动对象的数目。

4 实验

    我们专注于两类MRBM应用:背景生成和背景减除。我们在合成视频和标准PETS数据库上比较MRBM与其他常用的方法。源代码用C++实现,测试用电脑的配置如下:CPU为Pentium 1.6GHZ,内存512M。

    我们自己捕获或者合成的视频尺寸为320×240像素,PETS数据库的视频尺寸为384/360×288像素,帧速率均为25fps。在所有的实验中,我们选择YUV(4:4:4)色彩空间作为特征空间。算法实现的描述见第三节,我们采用了Epanechnikov核,K(t) = 3 / 4 *(1 - t2) 。

    理论上,更大的训练集能得到更稳定的背景模型,但是会牺牲适应性。我们的实验表明,当n=100时,能够使背景图像得到最佳的可视质量和适应性。典型点数m影响训练时间及背景模型的可靠性。在我们的实验中,我们为Mean Shift过程选择m=10个典型点,这时的训练时间与高斯混合模型接近。阀值θ和t影响检测的精度,对不同的数据集可能有不同的θ和t。在我们的实验中当θ=0.3,t=10时,能够得到最大的准确率和最小的错误率。如果没有特别说明,所有实验使用上述设置。

4.1 背景生成

    在许多监控和跟踪应用中,期望生成没有运动对象的背景图像,它能为更进一步的分析提供参考信息。但是很多时候,并不容易获得没有运动对象的的视频。我们的算法能从包含混乱运动对象的视频中提取非常清晰的背景图像。图4显示了一些生成的背景。视频共有360帧,我们将前100帧用于生成背景。图中显示了第1,33,66,99帧图像。图4的底部显示了算法生成的背景。以图4(c)为例,这段视频摄自校园的上下课时间,每帧中都有10名步行的学生。观察图4(c)最下面的背景图像,我们发现背景非常清晰,所有运动对象都被成功的抹去了。

图4 由MRBM生成的背景图像(每段视频显示了第1,33,66,99帧)

    运动对象的移动速度是关键因素,它能显著的影响背景模型,包括我们的背景模型。我们用一段300帧的视频来评估算法,该视频里有一位缓慢走动的女士。第1,30,60,90,120帧图像分别显示在图5(a)~(e)中。用不同数目的样本图像生成的背景显示于图5(f)~(j)。当保持100帧样本图像时,生成的背景中有一些噪点,但是背景的整体质量得以保证。噪点区域用白色椭圆标出了,如图5(f)所示。当我们将样本数目增加到300时,背景变得非常清晰,如图5(j)所示。

图5 由不同样本数(n=100,150,200,250,300)生成的背景图像(视频中有一位缓慢走动的女士,显示了视频中的第1,30,60,90,120帧图像)

    我们也对我们的背景生成方法与其它基本方法做了比较,例如高斯模型具有多个聚集中心的高斯混合模型。为了区分比较结果,我们合成了一段多模态背景分布视频。背景的像素由高斯混合分布生成,pbg(x) = ∑i=12αiGμi,σi(x),其中参数α1=α2=0.5,σ1=σ2=6,μ1=128,μ2=240。前景对象的像素由高斯分布生成,pfg(x) = Gμ,σ(x),其中参数μ=10,σ=6。上述两式中,Gμ,σ(·)代表具有均值μ和标准偏差σ的高斯分布。背景像素及前景像素的强度分布见图6。

图6 视频中的背景像素强度分布(蓝色曲线)及前景像素强度分布(红色曲线)

    视频共有120帧,我们用前100帧来生成背景。图7(a)~(e)显示了一些选定的帧,生成的背景图像显示在图7(f)~(i)中,从潜在分布生成的“地面实况”样本显示于图7(j)中。 对于高斯模型,背景像素的强度值被选为高斯均值,生成的背景图像如图7(f)所示。对于高斯混合模型,我们选择带maxim的高斯混合均值为背景值。图7(g)显示了2个中心的高斯混合模型,图7(h)显示了3个中心的高斯混合模型。实验所用的高斯混合模型使用OpenCV中的实现,见文献【27】。MRBM方法得到的结果如图7(i)所示。

图7 由不同模型从合成视频中生成的背景图像。(a)~(e)中显示了第1,20,40,60,80帧图像。(f)~(i)显示了由高斯模型、2中心高斯混合模型、3中心  高斯混合模型及最可靠背景模型生成的背景图像。(j)显示了地面实况样本背景图像。
    比较地面实况图像和生成的背景图像,我们发现非参数模型MRBM优于其它方法。凭直觉,在处理多模分布时,MRBM看起来与高斯混合模型类似。但是关键的不同之处在于高斯模型依赖均值和方差。它们的1阶和2阶统计数据对外部点(outliers 远离数据峰值的点)非常敏感。如果对象的运动速度慢,存在足够的前景值导致错误的均值,结果得出错误的背景值。作为对照,MRBM跟分布无关,仅仅使用极值作为可能的背景值,它对外部点更鲁棒。其他参数方法存在类似的问题,当预定义的模型不能描述数据分布时更加明显。

4.2 背景减除

    图8显示了我们算法的背景减除结果。图8(a)显示观测到的当前帧,图8(b)显示用MRBM从100帧样本生成的背景图像,图8(c)显示了背景减除的结果图像,我们发现运动对象变得很突出。我们比较了MRBM和其它常用的基本方法,例如文献【1】中的最大最小值法,文献【28,29】中的中值法,文献【8,6】中的高斯混合模型。比较结果显示于图9。由于我们不能修改这些原始工作成果的实现方式,只能按以下方式来管理基础算法:(1)对于W4,我们按原始成果中的建议来设置参数;(2)对于中值法和高斯混合模型,我们调整参数使其达到最好的检测精度。另外,为了使比较尽量公平,我们只做背景减除,没有进行降噪和形态学处理。

图8 背景减除结果

    最佳的视频序列选自PETS数据库【30-32】,选定帧如图9(a)所示。对所有的视频序列,我们用100帧来生成背景,用第40帧做背景减除。这些视频序列包含两种主要的场景:缓慢运动的对象(如PETS00和PETS06),多模态背景(如PETS01中摆动的树);这两种场景是背景减除中的不同情况。对于缓慢运动的对象,高斯模型的结果比较差,因为高斯均值对外部点敏感,如图9(d)所示。而MRBM依赖于背景分布的极值,外部点对其影响很小。同样,中值法和最大最小值法不能很好的应对多模态背景,PETS01中摆动的树被误认为前景。跟预期一致,MRBM优于其它三种方法。

图9 不同方法得到的背景减除结果。(a)标准PETS数据库,(b)最大最小值法,(c)中值法,(d)高斯混合模型,(e)最可靠背景模型

4.3 讨论可能的欠缺

    尽管MRBM适用于许多应用,仍然存在一些不能应对的场合,图10就是不能应对的例子。在这个实验中,视频共有300帧,我们用前120帧来生成背景。图10(a)~(g)分别显示了第1,20,40,60,80,100,120帧,背景图像显示在图10(h)中。前景人物的很大一部分被误认为背景。

图10 一个MRBM不能正确处理的例子。分别显示了第1,20,40,60,80,100,120帧图像。

通常,前景和背景的定义从自身来看并不明确。它包含在场景的语义中,在不同的应用中可能不一致。在我们的应用中,我们将运动对象定义为前景,将静止(或者几乎静止)的东西定义为背景,这与大多数视频监控应用的定义一致。通过第二节的分析,我们试图用ECD模型来近似观测值。在图10的实验中,人物在大部分时间保持静止,然后突然运动。这种情况下,大部分观测强度值属于人物,而非背景。对于人物的肩膀部分尤其明显,肩膀部分有相似的颜色,以致于检测不到运动。因此前景人物的大部分被误认为背景。

    实际上,这个例子反映了背景模型的根本问题:稳定性与适应性。理论上,如果我们增加用于训练的背景帧数,我们能得到更清晰的背景图像。但是同时,会极大的牺牲背景模型的适应性。当背景改变(例如新停泊的汽车或者突然改变的光照),背景模型需要很长的时间才能适应新情况,将产生大量的错误。

    针对该问题,一种有效的解决方案是:将现有的基于像素的方法扩展为基于区域或者基于帧的方法。通过分割图像或者完善像素级的低级分类可以实现它。更进一步,可以同时使用低级对象分割和高级信息(例如跟踪或者事件描述)。因此,我们接下来的工作将专注于如何结合空间和高级信息。

5 结论

    本文主要有两点贡献:(1)我们介绍的影响因素描述可用于对变化的背景进行建模;(2)基于ECD,我们开发了一种鲁棒的背景生成方法——最可靠背景模型。应用MRBM,能从包含混乱运动对象的视频序列中生成高质量的背景图像。一些例子显示了这种方法的有效性和鲁棒性。

    然而,仍然存在一些有待解决的问题。当前的工作中仅仅考虑了像素的时间信息。怎么结合空间信息来提高本方法的鲁棒性是后续工作的重点。一种直接的扩展是:将当前基于像素的方法修改成熔合了邻域信息基于区域的方法。另外,结合使用低级分割和高级跟踪信息,对我们的工作成果也将有极大的提高。

6 致谢

    在此要感谢陈熙霖博士和山世光博士,他们跟作者进行了很有帮助的讨论。这项研究的经费由以下单位赞助:中国自然科学基金会、中国科学院百名人才培养计划、上海银晨智能识别科技有限公司。

参考文献

[1] I.Haritaoglu, D.Harwoodand, L.S.Davis, W4:real-time surveillance of people and their activities, IEEE Transactions on Pattern Analysis and Machine Intelligence 22 (8) (2000) 809–830.
[2] K.Toyama, J.Krumm, B.Brumitt,B.Meyers., WallFlower: Principles and Practice of background maintenance, in: IEEE International Conferenceon Computer Vision, Corfu, Greece, 1999, pp. 255–261.
[3] A.Elgammal, D.Harwood, L.Davis, Non-parametric model for background subtraction, in: European Conference on Computer Vision, Dublin, Ireland, 2000, pp. 751–767.
[4] T.E.Boult, R.J.Micheals, X.Gao, M.Eckmann, Intothewoods: visual Surveillance of noncooperative and camouflaged targets in complex outdoor 
settings, Proceedings of the IEEE 89 (2001) 1382–1402.
[5] C.R.Wren, A.Azarbayejani, T.Darrell, A.P.Pentland, Pfinder: Real-time Tracking of the human body, IEEE Transactions on Pattern Analysis and 
Machine Intelligence 19 (7) (1998) 780–785.
[6] C.Stauffer, W.Grimson, Adaptive background mixture models for real-time tracking, in: IEEE Conference on Computer Vision and Pattern Recognition, FortCollins, USA, 1999, pp. 246–252.
[7] S.Rowe, A.Blake, Statistical background modelling for tracking with a virtual camera, in: British Machine Vision Conference, Birmingham, UK, 1995, pp. 423–432.
[8] C.Stauffer, W.E.L.Grimson, Learning patterns of activity using real-time tracking, IEEE Transactions on Pattern Analysis and Machine Intelligence 22 (8) (2000) 747–757.
[9] L.Li, W.Huang, I.Y.Gu, Q.Tian, Foreground object detection in changing Background based on color co-occurrence statistics, in: IEEE Workshop on Applications of Computer Vision, Orlando, Florida, 2002, pp. 269–274.
[10] P.KaewTraKulPong, R.Bowden, An improved adaptive background mixture Model for real-time tracking with shadow detection, in: European Workshop on Advanced Video Based Surveillance Systems, Kluwer Academic, 2001.
[11] K.Kim, T.Chalidabhongse, D.Harwood, L.Davis, Real-time foreground-Background segmentation using codebook model, Real Time Imaging 11 (3) (2005) 172–185.
[12] A.Elgammal, R.Duraiswami, L.Davis, Effcient non-parametric adaptive color Modeling using fast gauss transform, in: IEEE Conference on Computer Vision And Pattern Recognition, Vol. 2, 2001, pp. 563–570.
[13] A.M.Elgammal, R.Duraiswami, L.S.Davis, Effcient kernel density estimation Using the fast gauss transform with applications to color modeling and tracking., IEEE Transactions on Pattern Analysis and Machine Intelligence 25 (11) (2003) 1499–1504.
[14] A.Elgammal, Effcient nonparametric kernel density estimation for realtime computer vision, Ph.D. thesis, Rutgers, The State University of New Jersey (2002).
[15] H.Askar, X.Li, Z.Li, Background clutter suppression and dim moving point Targets detection using nonparametric method, in: International Conference on Communications, Circuits and Systems and West Sino Expositions, Vol. 2, 2002, pp. 982–986.
[16] D.Thirde, G.Jones, Hierarchical probabilistic models for video object Segmentation and tracking, in: International Conference on Pattern 
Recognition, Vol. 1, 2004, pp. 636–639.

[17] T.Liu, A.W.Moore, A.Gray, Effcient exact k-nn and nonparametric Classification in high dimensions, in: Neural Information Processing Systems, 2003, pp. 265–272.
[18] K.Fukunaga, L.Hostetler, The estimation of the gradient of adensity function, With applications in pattern recognition, IEEE Transactions on Information Theory 21 (1975) 32–40.
[19] D.Comaniciu, P.Meer, Mean shift: a robust approach toward feature space analysis, IEEE Transactions on Pattern Analysis and Machine Intelligence 24 (5) (2002) 603–619.
[20] I.Y.-H.Gu, V.Gui, Colour image segmentation using adaptive mean shift filters, in: International Conference on Image Processing, 2001, pp. 726–729.
[21] L.Yang, P.Meer, D.J.Foran, Unsupervised segmentation based on robust Estimation and color active contour models, IEEE Transactions on Information Technology in Biomedicine 9 (3) (2005) 475–486.
[22] D.Comaniciu, V.Ramesh, P.Meer, Kernel-based object tracking, IEEE Transactions on Pattern Analysis and Machine Intelligence 25 (5) (2003) 564– 577.
[23] R.T.Collins, Y.Liu, On-line selection of discrimin ative tracking features, in: International Conference on Computer Vision, 2003, pp. 346–352.

[24] R.Collins, Y.Liu, M.Leordeanu, On-line selection of discriminative tracking features, IEEE Transactions on Pattern Analysis and Machine Intelligence 27 (10) (2005) 1631–1643.
[25] O.Debeir, P.V.Ham, R.Kiss, C.Decaestecker, Tracking of migrating cells under phase-contrast video microscopy with combined mean-shift processes, IEEE Transactions on Medical Imaging 24 (6) (2005) 697–711.
[26] C.Shen, M.J.Brooks, A.van den Hengel, Fast global kernel density Mode seeking with application to localisation and tracking, in: International 
Conference on Computer Vision, 2005, pp. 1516–1523.
[27] Intel open source computer vision library (2004).
URL http://www.intel.com/technology/computing/opencv/
[28] B.Lo, S.Velastin, Automatic congestion detection system for underground platforms, in: International Symposium on Intelligent Multimedia, Video and Speech Processing, Hong Kong, China, 2001, pp. 158–161.
[29] R.Cucchiara, C.Grana, M.Piccardi, A.Prati, Detecting moving objects, ghosts, and shadows in video streams, IEEE Transactions on Pattern Analysis and Machine Intelligence 25 (10) (2003) 1337–1342.
[30] IEEE international workshop on performance evaluation of tracking and surveillance (2000).
URL ftp://ftp.pets.rdg.ac.uk/pub/PETS2000/
[31] IEEE international workshop on performance evaluation of tracking and surveillance (2001).
URL ftp://ftp.pets.rdg.ac.uk/pub/PETS2001/
[32] IEEE international workshop on performance evaluation of tracking and surveillance (2006).
URL http://pets2006.net/data.html

写在最后的话

    本文所述的方法可说是像素级背景建模方式的巅峰之作。在接下来的时间里,我将尝试按照我自己的理解来实现文中的算法,对于论文中没有讲述透彻的部分,我也试图完善它。敬请期待~~

    在翻译文章的过程中得到了赵德斌博士的指导,在此表示感谢。

    同时,也感谢您耐心看完,希望对您有所帮助。

    欲知后事如何,且听下回分解。

网页中的文本编辑器不方便写公式,文中的公式恐怕很难看清楚,建议您下载本文的WORD文档

### Region Proposal Network (RPN) in Deep Learning Object Detection In the context of deep learning-based object detection systems, a **Region Proposal Network (RPN)** plays an essential role by generating high-quality region proposals that are likely to contain objects. This network operates as part of Faster R-CNN architecture, which integrates both region proposal generation and object classification into one unified framework. The primary function of RPN is to predict object bounds from input images while simultaneously classifying whether each proposed box contains any foreground object or background area[^1]. Specifically: - The RPN generates approximately two thousand bounding boxes per image at various scales and aspect ratios. - These candidate regions serve as inputs for subsequent stages where they undergo further processing through convolutional layers followed by fully connected ones before being classified using Support Vector Machines (SVMs). To enhance efficiency without compromising accuracy, anchor mechanism was introduced within RPN design principles. Anchors represent predefined reference points across multiple sizes and shapes over all locations on feature maps derived after passing raw pixels through base CNN model like VGG16 or ResNet series. During training phase, positive anchors correspond closely enough with ground truth labels whereas negative examples refer far away instances outside IoU threshold range set during configuration stage; this approach ensures robustness against variations found among different datasets used throughout experiments conducted under domain adaptation scenarios described earlier[^2]. Moreover, integrating multi-scale feature learning techniques allows capturing richer contextual information necessary when dealing particularly challenging cases involving smaller sized targets present inside complex scenes captured via natural imagery sources such as street views provided by autonomous driving platforms seeking reliable real-time perception capabilities supported efficiently thanks largely due contributions made possible because advances brought forward regarding how effectively modern architectures can leverage hierarchical representations learned automatically directly out-of-the-box once properly configured according specific application requirements outlined beforehand[^3]. ```python import torch.nn.functional as F class RegionProposalNetwork(nn.Module): def __init__(self, ...): super(RegionProposalNetwork, self).__init__() # Define convolutions and other components here def forward(self, features): # Process feature map to generate proposals return proposals ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值