基于沃罗诺伊图的图像变化检测

最新推荐文章于 2025-10-24 14:40:57 发布

原创最新推荐文章于 2025-10-24 14:40:57 发布 · 1.1k 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#沃罗诺伊图 #显著点 #变化检测 #图像分割 #视频处理

检测图像序列中的显著变化

摘要

本章节中，作者对当前用于图像和视频序列变化检测的人工智能技术进行了综述。已分析多种图像特征以实现低层内容表示。为了实现机器的高层解释，提出并详细描述了一种图像比较的新颖方法。该方法利用了显著点检测、视频场景识别、空间图像分割、特征提取与分析等技术。用于图像分区匹配的度量提升了结果的性能和质量，多个评估指标已证实了这一点。文中还回顾了评估指标，并提供了公开可用测试数据集的参考文献。最后，结合图像和视频处理领域的未来发展趋势得出了结论。

Keywords 人工智能 ⋅ Machine vision ⋅ Image recognition ⋅ 视频处理 ⋅ Spatio-Temporal分割 ⋅ Salient points ⋅ Regions of interest ⋅ Voronoi diagrams

1 引言

图像处理传统上与人工智能问题相关，旨在模仿视觉信息感知的心理活动。
尽管现有方法和内容表示模型多种多样，但它们面临的主要挑战在于从低层获取的信息与高效理解所需的高层语义解释之间的差距。在弥合“语义鸿沟”范式的背景下，受人类视觉感知丰富性的启发，图像相似性评估应在特征空间方面得到充分明确的定义。

本文简要介绍了其中许多流行的方法。
当比较一组图像时，会出现一系列更为复杂的问题。这些问题不仅涉及单个图像识别，还需要某种比较过程，以区分拍摄图像时的光照条件和相机特性。图像尺寸和分辨率也对图像序列中观察到的变化产生显著影响。所谓“图像序列”，我们指的是视频帧或任何在拍摄时间上具有微小间隔的连续拍摄图片。（实际上，任何视频都只是大量静态图像以每秒25至30次的速度动态切换的结果。）上述所有因素正是图像和视频处理领域吸引越来越多研究与开发投入的原因。然而，在噪声环境、阴影以及物体之间相互重叠的情况下，仍然难以将物体从背景中有效区分出来。本文简要概述了在寻找显著内容或进行冗余消除（例如发现相似内容、最少公共内容、最佳代表、去重）方面的最新研究成果。

为了克服上述重叠和区分问题，研究了时空分割。空间图像分割对应于将图像视场划分为任意或严格定义形状的镶嵌、感兴趣区域或真实物体。特别关注沃罗诺伊图作为图像分割的几何工具，并使用专用度量进行后续比较和变化检测。作者在执行政府和商业研究项目时对该方法进行了深入研究。
结果表明，该方法在视频帧摘要方面比传统的基于对象的分割和显著点分析更为高效。高阶沃罗诺伊图的一个性质在于能够限制初始显著点的数量，同时增加Voronoi区域的数量。总体而言，这是一种在真实物体分割与单独点分析之间的合理折衷，实际上是通过点来近似找到的分割区域。同时也研究了基于点的方法。

时间分割在涉及视频图像序列时被称为场景边界检测。本文还简要概述了这些技术。视频帧之间的变化出现得非常迅速，实时定性处理的最大挑战仍然存在。为了完成这篇关于图像处理的简短综述，分析了近五百篇前沿文章和书籍。通过分析这些前沿方法和技术，揭示了主要的共同缺点。本章节指出了所研究的算法的优点与缺点以及其发展的基本趋势。

本章节的主要目标是提供关于图像和视频处理以及内容变化检测方面的最新趋势的全面概述，列出传统测试集的完整清单，并对图像处理评估技术进行回顾。在简要介绍传统的图像和视频处理技术的基础上，详细阐述了作者的方法在变化检测中的应用。本章提供了大量示意图、对比表格、图示和公式，有助于理解相关内容。

2 背景特征分析

对图像内容的理解可以被看作是在原始图像与现实世界模型之间建立关系的一种尝试。从原始图像到模型的转换过程会将图像中包含的信息减少为关于感兴趣对象的有限且充足的数据量。通常，整个过程被划分为多个阶段。在此前提下，应考虑图像表示层次的多个层次。最低层包含初始数据，其解释在更高层次上进行。这些层次之间的边界并不严格。一些作者将其进一步细分为子层次。此外，信息流通常不是单向的。有时该过程是迭代的，并包含多个循环，从而可以通过考虑中间结果来改变算法运行的方式。

尽管如此，图像处理的层次结构通常被简化为仅两个层次。低层负责对初始信息进行直接处理，而高层则实现对图像内容的理解和解释。低层技术通常不使用任何关于图像内容的知识。无论如何，在处理的最低层，初始数据将表示为矩阵集合，最终结果也将以矩阵形式 [1] 呈现。可以为低层特征分配不同的权重，有时甚至可以实现动态变化的条件权重。

通常，人们会假设使用颜色信息（因为它不依赖于拍摄图像角度和分辨率）。然而，仅使用颜色通常不足以实现高效数据表示。显然，具有相似颜色分布的图像可能具有完全不同的内容，因此将其同等对待将是一个巨大的错误。颜色信息仅在先验受限的应用领域中可能足够。颜色特征可以通过直方图进行分析，直方图可描绘一种或另一种颜色色调的频率、特定颜色通道的均值、最大值或最小值，或直方图的局部范围，后者可减少处理时间。

Ohta特征可用于颜色分析 [2]。它们被设计用于显示强度水平、红蓝分量差异以及绿色过剩，如下所示：

$$
\text{intensity} = \frac{r + g + b}{3}; \quad \text{red} - \text{blue difference} = r - b; \quad \text{green excess} = (2g - r - b)
$$

其中 $ r $ 是 RGB 颜色模式图像中的红色分量；$ g $ 是 RGB 颜色模式图像中的绿色分量；$ b $ 是蓝色分量。

除了加色法颜色表示外，还可以使用减色法颜色模型 CMYK，而 HSB、HSV、YUV、Luv 和 Lab 等模型则较少使用。

纹理特征包含有关局部图像区域内颜色色调变化的空间分布信息。换句话说，纹理描述了图像区域中的结构或模式。为了表征纹理，可以使用 Haralick 等人 [3] 和 Deselaers 等人 [4] 详细描述的 28 种纹理特征中的任意一种。在使用这些特征时，唯一需要注意的是它们彼此之间存在高相关性。以熵为例，可以展示帧像素强度之间的空间连通性：

$$
E = - \sum_{c=1}^{h} u_c \log_2 u_c
$$

其中 $ h $ 是可用的颜色色调数量；$ u_c $ 是颜色色调 $ c $ 在整个图像或正在分析的局部区域中的像素频率 [3]。

除了上述方法之外，还有基于自回归、马尔可夫链、数学形态学、分形、小波等的纹理计算方法。图像中显著位置的估计也是一个重要的底层特征，尽管其计算复杂度较高，但近年来受到越来越多的关注。伴随着显著位置，还可以分析运动流密度、流速以及轨迹。运动分析的方法可分为几组：块比较方法、相位相关方法、光流法。在第一组方法中，通过对图像划分为非重叠区域得到块，然后对连续图像进行比较。相位相关方法采用 DCT（离散余弦变换）进行运动估计。然而，最近基于光流计算的方法使用更为广泛。在两个时刻 $ t $ 和 $ t+\Delta t $ 相继拍摄的两幅图像的像素之间，光流方程可写为如下形式：

$$
I(x + \Delta x, y + \Delta y, t + \Delta t) \approx I(x, y, t) + \frac{\partial I}{\partial x} \Delta x + \frac{\partial I}{\partial y} \Delta y + \frac{\partial I}{\partial t} \Delta t
$$

其中 $ \Delta $ 指定时间增量步长以及两幅图像对应坐标之间的运动；$ I(x, y, t) $ 表示坐标为 $ (x, y) $ 的像素强度。

目前，光流计算有许多算法。其中大多数被收录在 Middlebury 数据库 [5] 中，该数据库旨在对光流算法 [6] 进行性能评估。该数据库的主要优势在于，通过在不同（且对每种算法相同）的测试样本上比较其质量，提供了光流算法的评分信息。尽管这种相对性能的计算未根据处理器性能和其他硬件加速器进行归一化处理，但它仍为上述算法提供了出色的概览。该数据库不断更新新增的算法，因此在图像处理研究社区的研究人员中非常受欢迎。截至 2009 年 12 月，数据库中仅有 24 种算法；到 2012 年 12 月增加至 77 种；2013 年底达到 90 种。在撰写本章节时的 2015 年 5 月，数据库中已有 114 种算法。

不用说，这些算法从分析角度来看提供了出色的结果，但由于需要在图像像素之间进行时空导数计算，所有这些算法对于实时处理而言都过于庞大。
与任何其他特征集实现相比，该过程非常耗时。此外，还需要引入额外的步骤来区分相机运动和物体运动。光流实现的另一个缺点在于，任何导数计算都对不同类型噪声敏感。

利用差分图像可以计算物体运动轨迹，但这些轨迹甚至可能不包含运动方向。为了在机器层面表示运动方向信息，使用了累积差分图像，它们是一系列图像，其中第一幅为样本图像。这类图像能够获取其他一些运动的时间特性、小物体的运动以及慢速运动。累积差分图像值显示出与样本灰度图像 [1] 在频率和定性上的差异。

另一种有趣的方法分析结构特征。使用水填充算法对物体边界进行“填充”，并结合填充时间和边界长度或周长进行考虑。通常，强度变化最大的区域被视为物体边界。基于度量的方法被认为是计算形状、边界或物体边界最简单的方式。度量提供了机会来确定需要初级分割的选定物体的面积和周长（物体形状及其边界）。空间分割确保选择均匀图像区域，这些区域通常是物体或其部分。最简单的算法包括在特定阈值或平均强度值下进行分割，扩大强度值相近的区域，并应用滤波器 [7]。

还有一些更为复杂的边缘检测技术，如傅里叶描述子、泽尼克矩、弗里曼链码、小波分析、罗伯茨交叉算子、索贝尔算子、基尔希算子、普鲁伊特算子、坎尼检测器等。其中许多方法基于强度梯度。此外，还可以通过不同的几何特征来估计物体形状。尽管现有技术种类繁多，但在物体重叠且背景为非静态背景的情况下，在图像序列中，许多方法提供了过于精细的分割结果，将图像分割成大量小面积区域，但从图像内容的角度来看，这些区域实际上并不那么重要。

当涉及到机器的图像理解时，需要使用高层算法。这些算法基于知识、目标和实现预期目标的计划。因此，图像理解被归结为层级间的交互。内容的高层描述可以通过低层特征来实现，同时考虑它们在图像中的相对或绝对空间位置，或应用人工智能方法对其进行处理。为此，可以使用模糊产生式规则、多种启发式方法、聚类分析、神经网络、多样的滤波器以及由作者之一在文章 [8] 中按流行度列出的更多技术。其中一种智能方法是通过基于词典构建语义网，为不同图像类别分配文本标签。文本标签与图像的对应关系由训练系统的用户定义。此类识别算法意味着在语义网络中搜索相似性度量，并考虑集成的视觉特征。然而，由于无法实现类似人类感知的完整功能识别，最常用的惯例是采用所谓的中层特征，以连接语义理解与低层概念。

初始数据中的先验信息越多，进行有效分析所需的特征数量可能就越少。
最优特征集选择是一项具有挑战性的任务，需要一些初步研究。除了某些特征之间存在高度相关性外，它们在不同图像中也可能表现出多种行为方式。
这正是难以找到一种能够同样适用于任何应用领域的通用图像处理算法的原因。近年来，在图像理解方面已取得显著进展。尽管如此，仍有许多问题尚未解决，计算机视觉领域的相关研究仍在继续 [1]。因此，将任何识别问题视为上述两个组成部分之间的联系似乎是合理的，即识别图像中的有意义区域（分割）及其内容解释。

3 问题陈述和用于解决方案的传统技术

图像序列（或视频帧）中的变化检测为发现序列整体部分之间的相关性，识别实现语义上有意义的时间分割为独立场景所需的视频结构元素提供了机会。此外，它还可用于广告识别、视频中重复内容的估计、摘要以及视频的无损压缩。目前面向变化检测的视频处理技术可如表1所示分为若干组。

示意图0

示意图1

示意图2

方法	作者（发表年份）
颜色直方图差异	• 梁B.，肖W.，刘X.（2012） • 刘G.，赵J.（2010） • 萨卡雷S.（2012）
统计学	• J. Almeida, N.J. Leite, R.S. Torres (2012) • S.S. Kanade, P.M. Patil (2013) • G.I. Rathod, D.A. Nikam (2013)
聚类	• L. Li, 张X., Y. Wang, 胡W., P. Zhu (2008) • Z. Qu, L. Lin, T. Gao, Y. Wang (2013) • H. Zhou, A.H. Sadka, M.R. Swash, J. Azizi, U.A. Sadiq (2010)
曲线简化	S. Lim, D. Thalmann (2001) • K. Matsuda, K. Kondo (2004) • E. Bulut, T. Capin (2007)
视觉注意	• J. 彭, Q. 晓林 (2010) • L.J. 赖, Y. 一 (2012) • Q.‐G. 季, Z.‐H. 谢, Z.‐D. 方, Z.‐M. 卢 (2013)
其他	• M. 库珀, J. 福特 (2002) • X. 杨, Z. 魏 (2011) • D.P. 帕帕多普洛斯, V.S. 卡洛吉顿, S.A. 查齐克里斯托菲斯, N. 帕帕马科斯 (2013)

除了上述表格之外，还有一些方法结合了多个组的方法，也有一些方法不属于上述任何一类组（“其他”类别），但其中大部分可归为此类。颜色直方图差异是图像比较中最直观的方法，尽管如前一小节所述，其结果可能缺乏准确性。下图显示了两个连续视频帧的颜色直方图示例。尽管这些帧在视频序列中相邻，它们的内容差异极大，但直方图的形状却非常相似。总的来说，直方图差异仍然是变化检测中最常用的技术之一。各类统计学方法也易于计算。但这种方法同样无法达到很高的精确率，应与其他方法结合使用。

最初与变化检测相关的方法使用聚类算法来比较图像。这一点很容易理解，因为这种人工智能方法出现时间较早，且种类繁多，从原始的 k‐均值和 K 近邻到现代的模糊聚类解决方案均有涵盖。下图展示了将视频帧进行聚类以检查其相似性的示例。被分析的图像根据前一小节讨论的合理特征集被划分为多个簇。在此情况下，重复（或近似重复）的图像位于同一簇中。显然，簇代表之间的距离越近，两幅图像的匹配程度就越高。此处出现的问题在于距离度量的选择，因为它需要适配所使用的特征集。

用于视频帧比较的聚类技术从 2001 年初便开始实施，至今仍处于最受欢迎的位置。早期方法与现代方法之间的唯一区别是由于计算能力不断提升，追求近实时处理，导致该过程的计算复杂度增加。

聚类算法的主要问题传统上与先验所需的聚类数量相关。这要求对被分析的图像序列具备先验知识，并需要用户参与该过程。贝叶斯准则克服了这一限制，能够自动选择簇，但为了减少计算量，应减少用于分析的参数数量，而这会对结果产生负面影响。

一些作者认为，基于聚类结果的相似性矩阵是一种完全匹配。在这方面，中国作者（曾X.、胡W.、李Y. W.、张X. 和徐B.）提出将多个簇分配给单幅图像（一种模糊模型），并具备一对一对应的能力 [9]。但他们的帧比较模型过于简化，不适用于不同应用领域的各种初始数据。此外，聚类分析方法对于同质数据表现不佳，经常出现误分类。
另一种与聚类和分类相关的方法由杨显峰和田琦提出，该方法处理通过视觉特征获取的视频重复。此处对先验已知和未知情况下的重复识别过程有所不同。为了识别已知的重复内容，基于视频原型构建一组特征向量（如颜色直方图、纹理等），并使用最近邻分类器在视频集合中识别副本。杨显峰和田琦的研究工作主要集中在这些特征的表示以及分类器训练上。作者尝试通过引入子空间的判别分析来提升识别结果的精度。为了减少视频数据量并消除冗余，每隔半秒进行一次帧提取。对提取出的帧构建 RGB 颜色直方图，并进行纹理特征分析。最近邻分类器为视频拷贝识别提供了有效手段。当被分析的图像序列与某原型之间的距离小于阈值时，即确定该序列为最接近的原型；否则将其归为具有其他原型的另一类。为了估计错误频率并获得最优

示意图3

另一类方法假设通过在多维特征空间中构建的曲线来表示图像序列。以下是基于多个特征构建的三条曲线的示例，如图所示。为了清晰起见，所有三个图形显示在同一坐标平面上，尽管它们各自的物理意义显然各不相同。
与纹理相比，颜色变化更为明显，但后者能提供关于曝光变化更精确的信息。
通过对曲线值进行逼近，可以检测到细微的变化，而显著变化则体现在曲线的局部极大值和极小值处。出于此类目的，主要考虑使用颜色和纹理特征（图1、2 和 3）。

后来出现了基于运动的比较方法。如前所述，光流算法使用最为频繁。图4展示了内容几乎相同的连续帧之间的运动变化。短线表示通过 Horn‐Schunck 变分法估计的连续帧之间的运动偏移。基于运动的方法具有较高的计算复杂度，且仅在存在显著运动时才能获得真正精细的结果。然而，这种方法存在一定争议，因为小运动帧也可能包含内容上的显著变化，反之，大幅运动变化帧的内容可能仍然相似。
光照条件直接影响运动检测结果，常常导致对运动变化显著性的错误识别。
对于视频序列，应注意在场景之间（即场景边界）或在场景中间出现的高纹理帧中观察到最大的运动。主要难点在于需要进行运动敏感度阈值设定。每种类型的视频/图像内容都需要针对最大和最小运动设置相应的条件或约束。

除了上述问题外，这类方法并未提供区分运动显著性的手段，即无法判断哪种运动更为显著，而哪种仅仅是背景运动。由于这一问题，许多科学家将运动分析与视觉特征相结合。这种组合可能如下所示：首先通过颜色变化分析检测场景边界，然后从运动速度减慢或加快的场景部分中提取具有显著变化的帧。如果应用领域是先验已知的，则可在执行分析之前构建运动模式 [8]。后一种方法的优点在于无需依赖阈值，但会增加处理时间，且仅适用于受限类型的图像序列，因为它与预定义的模式相关联。

为了使结果具有语义导向，一些研究人员专注于为物体添加文本标签。
这些标签有时被称为注释（见图5）。无论如何，用户都通过接受或拒绝物体标签的完全匹配来参与该过程。遗憾的是，分配文本标签并不能保证新图像会包含类似的内容，并且系统能够正确识别它。对于任意且未知的集合而言，这是一个很大的问题，因为内容中的所有变化根本无法预测。尽管在语义导向概念的实现方面取得了一些进展，但如果没有用户参与，仍然无法实现正确的机器级解释 [9]。

示意图4

视觉注意模型是最近为图像比较提出的一种新颖技术。它假设生成显著性图或注意力曲线。带注释的显著性图示例如图5所示。视觉注意曲线是基于背景和前景变化构建，可能看起来非常像图中所示的图形。3。运动和强度在模型中主要被视为低层特征。遗传算法、神经网络和免疫网络是帧比较的一些其他智能选项示例，尽管其作者诚实地提醒需要添加和改进以达到更好的质量 [8]。

尽管已有多种可用技术，但仍然很难找到一种具有足够质量的图像序列内容解释方法，能够应对任意的应用领域。这主要是由于数据来源、图像尺寸和分辨率、拍摄质量、使用的摄像头、拍摄角度、噪声、内容特征以及帧提取目的的不同所致。现有的任何一种技术都无法同时应对所有这些问题。
解决一个问题通常会暴露出另一个问题。下一小节将详细描述一种对数据源不敏感的图像序列变化检测方法。作者尝试利用在显著点上构建的 Voronoi 图进行图像表示，这些显著点通过多个特征被发现并重新组织（见图6）。通过使用提出的度量对 Voronoi 图进行比较，揭示了一些有趣的性质，这些性质成为相似性检测的基础。该方法的创新之处在于将 Voronoi 镶嵌作为图像比较的区域，从而能够检测到细微和显著的变化。

选择沃罗诺伊图进行空间图像分割的原因有多个。首先，将视频中的物体进行真实物体分割是不合理的，因为视频中物体数量太多。其次，视频对象在时间上变化非常大。目前尚无方法能够在缺乏先验知识的情况下检测和跟踪物体。这一论断的原因在于此类方法正不断改进。物体重叠、快速运动、光照条件的剧烈变化、非静态前景与背景等，都可能导致错误的目标识别和分类。相比其他方法，使用沃罗诺伊图进行分割所需的计算资源要少得多。

示意图5

对分割对象的运动分析。沃罗诺伊图此前未被用于变化检测，而这一新方法在应用竞争力方面无疑具有研究意义 [7]。

4 图像内容解释与比较

图像比较可以通过对显著点、局部区域或整幅图像的机器级分析来实现。后者虽然更稳健，但通常不适用于精确的内容解释，只能作为分析的中间阶段。
近年来，关于显著点（也称为显著点、兴趣点、有意义的点、关键点、特征点、边界点、角点、站点、原子、生成元或生成点）的算法获得了广泛的关注。事实上，在分析局部区域（无论是真实物体还是任意多边形形状的镶嵌区域）时，其构造通常标记或关联那些具有某些共同属性的兴趣点。这些点位于物体边界或其他有意义的图像区域上，通过强度与周围局部区域严格区分，并在潜在运动 [2] 下对几何和辐射畸变具有不变性。

目前，已经开发出许多显著点检测方法：从复杂的波浪变换到相当简单的对象角点检测器。尽管小波变换能提供更精确的输出，但由于计算简单性较高，角点检测器使用更为广泛。尺度不变特征变换（SIFT）及其扩展方法（如加速稳健特征，SURF）在此领域中被普遍采用。然而，哈里斯算法及其扩展方法被认为具有更高的准确性。FAST 检测器（来自加速段测试的特征）也分析局部强度，但与前述技术不同，由于无需微分过程，它能够在实时模式下运行。然而，该方法在某些测试集合上的质量可能会下降。其他较不常用的检测器包括：Susan、DoG、MSER、Hessian 仿射、GLOH、LBP 等。当然，特征点提供的信息远少于区域，但结合区域使用这些特征点可有效保证图像和视频识别 [2, 11]。

在进行视觉内容分析之前，应首先进行空间图像分割。图像空间的划分可以通过将其分割为相等的矩形区域 [2, 3] 这种简单的方式实现。另一种更为复杂且便捷的方法是搜索背景和前景物体。然而，后者的分割方法在光照条件变化、物体旋转及切向运动以及物体重叠的情况下存在缺陷。物体的错误分配会导致较差的识别结果。为避免此问题，提出了一种基于沃罗诺伊图的图像变化检测新颖方法 [7, 8]。

4.1 在显著图像点上构建沃罗诺伊图

沃罗诺伊图被提议作为图像结构表示和解释的基础，其构建基于显著点（这些显著点可通过上述现有方法之一找到）。沃罗诺伊图最初为大地测量学设计，近年来开始在计算机图形学中用于三维建模。然而，尽管这种随机几何方法具有明显优势，却仍未在图像识别领域得到广泛应用 [12]。Voronoi 镶嵌最早由勒内·笛卡尔于 1644 年提出。后来在 1850 年出现在彼得·古斯塔夫·勒热纳·狄利克雷的研究中，随后在 20 世纪初以俄罗斯数学家格奥尔吉·费奥多罗维奇·维诺伊的名字命名，他毕生致力于该领域的知识积累。除了沃罗诺伊图或镶嵌外，文献中还可见其他几种名称：狄利克雷单元或区域、泰森多边形、维格纳‐赛茨单元。研究过 Voronoi 镶嵌的当代科学家包括：弗朗茨·奥伦哈默、弗兰科·普雷帕拉塔、迈克尔·沙莫斯、冈部爱儿、巴里·布茨、杉原康雄、史蒂文·丘、鲍里斯·尼古拉耶维奇·德洛内以及许多其他

为了对任意维诺区域 $ v(pi) $ 给出形式化定义，将图像视场定义为 $ D=[a, b] × [c, d] $，其中 $ a, b, c, d = \text{const} $。设 $ {p1, p2, …, pn} $ 为一组显著点。沃罗诺伊图是一种划分

示意图6

将图像区域 $ D $ 划分为凸多边形 $ V = {v(p1) ∩ D, v(p2) ∩ D, ⋯⋯, v(pn) ∩ D} $，使得每个区域满足以下不等式：

$$
v(pi) = { z ∈ ℝ^2 : d(z, pi) ≤ d(z, pj) ∀ i ≠ j }
$$

其中 $ d(◦, ◦) $ 是欧几里得度量。换句话说，与点 $ pi $ 关联的维诺区域 $ v(pi) $ 由一组点 Z 构成，假设其中每个点到对应显著点的距离小于或等于到任何其他非对应显著点的距离 [15]。

通过增加初始显著点的数量或构建高阶沃罗诺伊图（或广义沃罗诺伊图），可以实现对镶嵌的细节内容增强。后者更为复杂，且通常在计算上更有效。
图7 展示了视频序列中彼此接近的三个视频帧的划分情况。每个图像分别使用一阶、二阶和八阶沃罗诺伊图进行分割（从左到右）。最初，这些帧中检测到了九个显著点，因此在这种情况下，八阶被认为是最大可能的阶数。

最高可能阶数的分段数量增加和减少同样显而易见。从上图可以明显看出，对内容变化最稳定的是最高阶沃罗诺伊图。此处作为示例提供的帧来自单一场景，其中最高阶的沃罗诺伊图实际上保持不变。这一点从广义沃罗诺伊图的形式化定义 [13] 中很容易解释。

基于二维空间中的 $ n $ 个显著点构建的 $ k $ 阶沃罗诺伊图 $ k, V(k) $ 是一种将平面划分为凸多边形的划分方法，使得每个维诺区域 $ v(pi)^{(k)} $ 中的点 $ z $ 均具有相同数量的 $ k $ 个最近的显著点 $ pi $ 与之关联。上述定义 (4) 是当 $ k = 1 $ 时广义沃罗诺伊图的一个特例。

为了定义任意广义的沃罗诺伊图，设 $ {p1, p2, …, pm} $ 为显著点的集合，而 $ {{p1, 1, …, p1, k}, …, {pl,1, …, pl, k}} $ 是相应最近的 k 个显著点的子集，则由显著点 $ {pi,1, …, pi, k} $ 构成的阶数为 k 的凸维诺伊多边形 $ v(pi)^{(k)} $ 可表示如下：

$$
v(pi)^{(k)} = { z ∈ ℝ^2 : \max{d(z, pi, h), pi, h ∈ v(pi)^{(k)}} ≤ \min{d(z, pi,j), pi,j ∈ V(k)\v(pi)^{(k)}} }
$$

另一种表述方式是，一个维诺区域的最远点到其对应显著点的距离小于或等于到另一个区域的最近显著点的距离。任意一个阶数为 k 的维诺区域可能包含 0 到 k 个显著点，即一个阶数为 k 的维诺区域可能没有

示意图7

检测图像序列中的显著变化

4.2 沃罗诺伊图比较的相似性度量

为了比较视频帧、局部图像区域、特征集或与视觉信息处理相关的任何其他内容，大多数情况下会使用不同的度量。这些度量或距离用于表示被分析对象之间的接近度。然而，“距离”、“相似性”或“接近度度量”从术语角度来看是相反的概念。有人认为，两个任意集合之间的距离即是它们之间的差异。通常，度量被视为满足自反性、对称性和三角不等式 [16] 条件的任意函数。

$$
(1)\ \rho(B’(z), B’‘(z)) = 0 \Leftrightarrow B’(z) = B’‘(z), \quad (2)\ \rho(B’(z), B’‘(z)) = \rho(B’‘(z), B’(z)),
$$
$$
(3)\ \rho(B’(z), B’‘’(z)) \leq \rho(B’(z), B’‘(z)) + \rho(B’‘(z), B’‘’(z))
$$

其中 $ \rho(◦, ◦) $ 是图像 $ B’(z) $、$ B’‘(z) $ 和 $ B’‘’(z) $ 之间的相似性度量。

通常，图像比较通过广泛适用的曼哈顿距离、豪斯多夫距离、马哈拉诺比斯距离、欧几里得或平方欧几里得距离来进行。本章节的作者提出使用假设颜色、纹理和区域形状性质的特殊度量。有时会使用度量或度量方法的线性组合（称为聚合），并对度量或聚合结果所得的值分配权重系数。为这些目的实现的统计度量无法提供高质量的输出结果。然而，它们可用于实时模式下的数据处理以及有限应用领域问题的求解。为了获得图像内容分析的能力

通过 Voronoi 镶嵌进行比较时，主要应开发新的度量方法，因为研究人员此前尚未对沃罗诺伊图进行过比较。正如之前所提到的，这为通过使视频帧内容表示更加稳定来寻找图像间的最大匹配提供了机会。

日本科学家贞广幸男曾尝试对沃罗诺伊图进行匹配，他未采用相似性度量的方法，而是通过面积特性和统计度量来进行比较 [17]。他提出了多种视觉与定量分析方法，包括 $ \chi^2 $ 准则、卡帕指数及其扩展、Voronoi 区域的面积与周长、方差与标准差、质心概念等。为了比较日本行政区划系统中的行政区划分，Y. Sadahiro 提出使用细节密度度量以及重叠、部分重叠和包含的层次关系。然而，在图像和视频处理应用中，面积方法有时具有对偶含义，因为物体可能以不同尺度被拍摄。图像或视频帧中的不同物体可能具有相同的尺寸。因此，仅依靠面积特性无法可靠地用于目标识别和变化检测。还应考虑其他一些性质：空间位置、纹理、颜色、形状、运动，这些是基于内容的图像和视频检索系统所利用的主要属性。

为了比较为两幅任意图像 $ B’(z) $ 和 $ B’‘(z) $ 分别基于显著点 $ {p’_1, p’_2, …, p’_n} $ 以及 $ {p’‘_1, p’‘_2, …, p’‘_m} $ 构建的 Voronoi 镶嵌，采用以下度量 $ \rho_1(V’, V’‘) $ [16]：

$$
\rho_1(V’, V’‘) = \sum_{i=1}^{n} \sum_{j=1}^{m} \frac{\text{card}(v(p’_i) \Delta v(p’‘_j))}{\text{card}(v(p’_i) \cap v(p’‘_j))}
$$

其中 $ v(p’_i) \Delta v(p’‘_j) = (v(p’_i) \setminus v(p’‘_j)) \cup (v(p’‘_j) \setminus v(p’_i)) $ 是对称差，用于度量区域 $ v(p’_i) $ 和 $ v(p’‘_j) $ 之间不同的像素数量。

从对称差得到的值不依赖于区域尺寸，即在距离上，具有三个不匹配点（或两者之间的差异）的两个空间上较大的区域将与具有三个不匹配点的两个空间上较小的区域以相同方式处理。对称差与区域交集的乘法会导致不同和相似图像的值出现巨大散射。仅实现对称差并不能保证如此巨大的散点图，这从下面两个 figures 中可以明显看出。图8 展示了从互联网档案馆开源测试集中获取的新闻视频片段“factories_512 kb.mp4”的连续帧维诺区域计算出的对称差值的图形。图9 展示了相同视频帧的对称差值与维诺区域交集相乘后得到的对称差值的图形。

对于所分析的新闻视频，对称差与维诺区域交集相乘后得到的值范围等于 $ 2.3 \times 10^9 $，而对称差的值范围从 $ 148 \times 10^3 $ 到 $ 289 \times 10^3 $，这比前者小了 $ 10^5 $ 倍。此外，观察到的对称差值的图形变化与视频内容的变化相关性远低于由公式 (7) 得到的图形值。因此，仅考虑对称差值很难对图像变化做出任何判断。当假设区域交集时，对于形状不同的区域，公式 (7) 得出的结果值会大得多，而对于形状几乎相同的区域，由于不常见的交集数量较少，大多数乘数等于 0，从而导致值的巨大散射。

为了仅用显著点来表示 Voronoi 区域，并重写上述公式，应明确以下概念。由于 Voronoi 区域是基于各点之间的垂直平分线构建的

示意图8

相邻显著点 $ p_i $ 和 $ p_\lambda $ [15]，将维诺区域 $ v(p_i) $ 视为连接相邻显著点的半平面的交集：

$$
v(p_i) = \bigcap_{\lambda \in [1; \psi]} H(p_i, p_\lambda)
$$

其中 $ \psi $ 是与 $ p_\lambda $ 相邻的显著点的数量 $ p_i $。

对于相邻显著点 $ p_i $ 和 $ p_\lambda $，具有以下性质：
1. $ \exists \gamma_\psi $，$ d(p_i, \gamma_\psi) = d(p_\lambda, \gamma_\psi) $ 其中 $ \gamma_\psi $ 是 Voronoi 多边形的顶点；

示意图9

示意图10

$ \left(\frac{x_\lambda - x_i}{2}; \frac{y_\lambda - y_i}{2}\right) \in v(p_i), v(p_\lambda) $ 其中 $ p_i(x_i; y_i) $，$ p_\lambda(x_\lambda; y_\lambda) $；
$ v(p_i) \cap v(p_\lambda) \neq \emptyset $ 其中 $ v(p_i) \cap v(p_\lambda) $ 是维诺伊多边形的边或其顶点（见图10）。

然而，仅当相应区域具有非退化边界（即维诺伊多边形的边，而不仅仅是一个点）时，显著点才是相邻的。图10 展示了一个维诺伊多边形的边及其顶点的示例，该顶点是通过相邻显著点之间垂直平分线所在直线相交得到的。

为了用显著点表示 Voronoi 区域，应写出一个图像中相邻显著点 $ p’ i $ 和 $ p’ \lambda $ 的垂直平分线方程 $ B’(z) $，以及另一个图像中相邻显著点 $ p’‘ j $ 和 $ p’‘ \lambda $ 的方程 $ B’‘(z) $。连接两个坐标分别为 $ p’ i(x_i; y_i) $ 和 $ p’ \lambda(x_\lambda, y_\lambda) $ 的点的直线方程如下所示：

$$
\frac{y - y_i}{y_\lambda - y_i} = \frac{x - x_i}{x_\lambda - x_i} \quad \text{or} \quad (y_i - y_\lambda)x + (x_\lambda - x_i)y + (x_i y_\lambda - x_\lambda y_i) = 0.
$$

根据上述公式，连接两个相邻点的直线的斜率角 $ \theta $ 可计算为 $ \tan\theta = -\frac{y_i - y_\lambda}{x_\lambda - x_i} $。由图11 可知，$ \tan\phi = \tan(\theta + \frac{\pi}{2}) $，因此垂直平分线的斜率角 $ \phi $ 可表示为 $ \tan\phi = -\cot\theta $。于是，$ \tan\phi = \frac{x_\lambda - x_i}{y_i - y_\lambda} $。

已知斜率角 $ \phi $ 和直线上生成半平面的点的坐标 $ \left(\frac{x_\lambda - x_i}{2}; \frac{y_\lambda - y_i}{2}\right) $，不难求出包含相邻显著点之间垂直平分线的直线方程。假设点坐标应满足具有角系数的直线方程 $ y = kx + b $，$ k = \tan\phi $，定义垂直平分线与纵轴的交点：

$$
b = \frac{y_\lambda - y_i}{2} - \tan\phi \times \frac{x_\lambda - x_i}{2}, \quad \text{i.e.} \quad b = \frac{y_\lambda - y_i}{2} - \frac{x_\lambda - x_i}{y_i - y_\lambda} \times \frac{x_\lambda - x_i}{2}.
$$

考虑包含相邻显著点之间垂直平分线的直线方程：

$$
y = \frac{x_\lambda - x_i}{y_i - y_\lambda} x + \frac{y_\lambda - y_i}{2} - \frac{x_\lambda - x_i}{y_i - y_\lambda} \times \frac{x_\lambda - x_i}{2}
\quad \text{or} \quad
y = \frac{x_\lambda - x_i}{y_i - y_\lambda} \left(x - \frac{x_\lambda - x_i}{2}\right) + \frac{y_\lambda - y_i}{2}
$$

包含相邻显著点之间垂直平分线的直线相交，形成凸多边形形式的 Voronoi 区域。为了确定多边形顶点的坐标，应计算这些直线交点的点坐标。

可以确定： $ \bigcap_{\lambda \in [1; \psi]} \frac{x’ \lambda - x’_i}{y’_i - y’ \lambda} \left(x - \frac{x’ \lambda - x’_i}{2}\right) + \frac{y’ \lambda - y’ i}{2} $。已知显著点坐标 $ (x_i; y_i) $ 和多边形顶点坐标 $ (x {\gamma_\psi}; y_{\gamma_\psi}) $，可通过将多边形划分为三角形，并利用海伦公式计算每个多边形的面积。三角形的顶点位于一个显著点上，而三角形的底边是维诺伊多边形的一条边（即两个已知坐标的顶点之间的边），或图像视场的一个边界线段（其坐标也是已知的）。由此可知，若一个显著点位于以图像视场某一线段为底边的三角形内部，则该三角形的面积计算时仅考虑其顶点和底边线段，而不考虑该显著点（见图12）。因此，可计算出每个维诺区域的面积，以便将来对两幅图像进行比较。

面积图像相似性不假设分区的空间位置，因此相同面积的不同调整区域将具有相同的粒度值。这就是为什么除了 Voronoi 区域的形状特征外，还应考虑颜色和纹理信息。其他特征也可以在权重分配较小的条件下包含在 final 计算中。包含用于比较 Voronoi 区域形状的度量的公式 (7) 可以通过显著点坐标表示，使用由半平面表达 Voronoi 区域的公式 (8)，以及包含显著点之间垂直平分线的直线方程的公式 (10)：

示意图11

$$
\rho_1(V’, V’‘) = \sum_{i=1}^{n} \sum_{j=1}^{m} \frac{
\text{card} \left(
\bigcap_{\lambda \in [1; \psi]} \frac{x’ \lambda - x’_i}{y’_i - y’ \lambda} \left(x - \frac{x’ \lambda - x’_i}{2}\right) + \frac{y’ \lambda - y’ i}{2}
\right)
\Delta
\text{card} \left(
\bigcap {\lambda \in [1; \psi]} \frac{x’‘ \lambda - x’‘_j}{y’‘_j - y’‘ \lambda} \left(x - \frac{x’‘ \lambda - x’‘_j}{2}\right) + \frac{y’‘ \lambda - y’‘ j}{2}
\right)
}
{
\text{card} \left(
\bigcap {\lambda \in [1; \psi]} \frac{x’ \lambda - x’_i}{y’_i - y’ \lambda} \left(x - \frac{x’ \lambda - x’_i}{2}\right) + \frac{y’ \lambda - y’ i}{2}
\right)
\cap
\text{card} \left(
\bigcap {\lambda \in [1; \psi]} \frac{x’‘ \lambda - x’‘_j}{y’‘_j - y’‘ \lambda} \left(x - \frac{x’‘ \lambda - x’‘_j}{2}\right) + \frac{y’‘ \lambda - y’‘_j}{2}
\right)
}
$$

上述相似性度量展示了两个沃罗诺伊图在区域形状方面的匹配程度。为了考虑颜色和纹理特征，应针对分区的公共部分定义另外两个度量（$ \rho_2(B’(z), B’‘(z)) $ 和 $ \rho_3(B’(z), B’‘(z)) $，分别对应）。

$$
\rho_2(B’(z), B’‘(z)) = \sum_{i=1}^{n} \sum_{j=1}^{m} \sum_{x_q} \sum_{y_u} (x_q, y_u) \in (v(p’_i) \cap v(p’‘_j)) (B’(x_q, y_u) - B’‘(x_q, y_u))^2
$$

其中 $ B’(x_q, y_u) $ 是区域 $ (v(p’_i) \cap v(p’‘_j)) $ 中某个像素的强度值，

$$
\rho_3(B’(z), B’‘(z)) = \sum_{i=1}^{n} \sum_{j=1}^{m} (v(p’_i), v(p’‘_j)) \supseteq (v(p’_i) \cap v(p’‘_j)) |E(v(p’_i)) - E(v(p’‘_j))|
$$

其中 $ E(v(p’_i)) $ 是区域 $ v(p’_i) $ 的熵值。

颜色和纹理的相似性度量确保了被分析图像的 Voronoi 区域中相应变化的假设成立。平方欧几里得距离保证了在颜色上较远的物体具有更高的权重。曼哈顿距离被选用于纹理相似性分析，因为每个区域的整体熵值是单独计算的，且每个值由一个浮点数表示（每个 Voronoi 区域对应一个数值），而颜色相似性则是在两幅被分析图像共有的每个像素上进行估计的。类似地，度量 (12) 和 (13) 也可以用显著点坐标的形式表示，而不是 Voronoi 区域，就像公式 (11)。Thus, three non-normalized estimations are got. Further, normalization of Eqs.(7),(12) and(13) can be made to obtain values ranging from 0 to 1. Transformation of the above metrics to a limited form imply usage of a function named range compander:

$$
\rho’(B’(z), B’‘(z)) = \frac{\rho(B’(z), B’‘(z))}{1 + \rho(B’(z), B’‘(z))}
$$

将此函数与度量结合仍然会得到一个满足自反性、对称性和三角不等式规则的度量。由于度量的线性组合仍为度量，因此可以使用以下得出的度量：

$$
\hat{\rho}(B’(z), B’‘(z)) = \alpha_1 \rho’ 1 + \alpha_2 \rho’_2 + \alpha_3 \rho’_3, \quad \sum {\gamma=1}^{3} \alpha_\gamma = 1, \alpha_\gamma \geq 0
$$

其中 $ \hat{\rho}(B’(z), B’‘(z)) $ 表示图像相似性，$ \alpha_\gamma $ 表示所用各特征的重要性 [7]。

4.3 图像变化检测的流程

为了比较多幅图像的内容，建议首先进行图像序列同质性分析，然后再进行其他任何处理。这将有助于确定内容变化检测所使用的阈值。为此，可以利用为每幅图像计算的熵值。高熵表明像素值分布极为分散，而低熵则表明像素

熵范围值	帧缩略图
3.25 – 4.99
5 – 5.99
6 – 6.99
7 – 7.25
7.26 – 7.5
7.51 – 7.75

同质性和细节同质性由此产生。因此，熵值表示在计算时所针对的局部图像区域中存在的细节量。对于没有任何物体、无任何纹理（完全黑色、白色或灰色画面）的图像，其熵值为 0。值得注意的是，任何其他填充颜色（从浅黄色到深蓝色）都会导致熵值为 1.58，然而，在白色背景上添加任何细节仅会影响熵值的十分位部分。对于真实照片和视频帧，必然存在一定的纹理，熵值通常在 3.25 至 7.75 范围内变化。当熵值小于 5 时，表示纹理较浅且细节较少。更高的值通常位于 7 到 7.75 之间。

在讨论连续视频帧时，十分之一部分的熵的差异可能意味着跟踪对象并未发生变化，只是在空间中移动。然而，也可能是新场景的开始，因为不同的画面内容可能计算出相同的熵值。由于这种歧义，仅靠熵无法准确解释内容变化，但可用于整个视觉序列的粗略同质性估计。

5:4	4:3	16:10	16:9
SXGA (1280 * 1024)	QVGA (320 * 240)	CGA (320 * 200)	WVGA (854 * 480)
QSXGA (2560 * 2048)	VGA (640 * 480)	WSXGA +(1680 * 1050)	高清 720 (1280 * 720)
	PAL (768 * 576)	WUXGA (1920 * 1200)	高清 1080 (1920 * 1080)
	SVGA (800 * 600)	WQXGA (2560 * 1600)
	XGA (1024 * 768)
	SXGA +(1400 * 1050)
	UXGA (1600 * 1200)
	QXGA (2048 * 1536)

示意图12

上述陈述的证明，表2 显示了四个视频序列的帧缩略图的熵值（表 3）。
左上角的帧编号表示其来自四个视频序列之一。因此，第一个视频序列的熵范围在 3.25 到 7.74 之间。该视频片段在所分析的素材中具有最大的场景变化。第二个视频序列的熵范围为 4.12 至 6.59。此处内容也具有较高的异质性，但拍摄于夜间，黑暗的背景限制了可见细节的范围。第三段素材表现出变化的同质性，所有物体均在相同条件下拍摄，彼此非常相似，熵范围在 7.1 到 7.53 之间。第四个视频包含多个场景，其熵范围相当多样（从 5.85 到 7.75），只是并非该视频的所有帧都已包含在表格中。

图13 展示了上表中包含的第三个和第四个视频序列的均质和非均质内容的熵变化曲线。为了演示目的，从两个视频中各截取了持续近三分钟的片段，每秒包含 29 帧。从下图可以看出，为其中一个视频计算的熵值变化较小，

示意图13

图像变化检测中匹配沃罗诺伊图的整个过程如下所述。

步骤1 确定图像序列的同质性。计算图像序列中所有图像的纹理方差，并根据以下规则设定阈值：

$$
\text{Threshold} =
\begin{cases}
\frac{1}{4}, & \frac{1}{K-1} \sum_{k=1}^{K} \left(E(B_k(z)) - \frac{1}{K} \sum_{k=1}^{K} E(B_k(z))\right)^2 \to \infty, \
\frac{1}{2}, & \frac{1}{K-1} \sum_{k=1}^{K} \left(E(B_k(z)) - \frac{1}{K} \sum_{k=1}^{K} E(B_k(z))\right)^2 \to \frac{1}{K} \sum_{k=1}^{K} E(B_k(z)), \
\frac{3}{4}, & \frac{1}{K-1} \sum_{k=1}^{K} \left(E(B_k(z)) - \frac{1}{K} \sum_{k=1}^{K} E(B_k(z))\right)^2 \to 0,
\end{cases}
$$

示意图14

示意图15

其中 $ K $ 表示序列中的图像/帧总数，$ E(B_k(z)) $ 是第 $ k $ 个图像/帧的熵值。阈值设置如下：对于包含异质内容和多种场景的图像/帧，阈值应小于 $ \frac{1}{4} $；对于包含同构内容且场景数量较少（或甚至为单一场景）的图像/帧，阈值应增加至 $ \frac{3}{4} $；否则，阈值设为 $ \frac{1}{2} $。

步骤2 取第一幅 ($ B_k(z) $) 和第二幅 ($ B_{k+1}(z) $) 图像/帧进行比较。设置 $ k = 1 $。

步骤3 逐帧比较 Voronoi 镶嵌以发现内容显著变化。根据公式 (15) 计算两幅图像/帧的 $ \hat{\rho}(B_k(z), B_{k+1}(z)) $。如果 $ \hat{\rho}(B_k(z), B_{k+1}(z)) $ 小于预设阈值，则认为两幅图像/帧 $ B_k(z) $ 和 $ B_{k+1}(z) $ 均包含显著变化（可重新分配为 $ B^ _r(z) $ 和 $ B^ _{r+1}(z) $），并从下一步（第4步）继续执行该过程。否则，从第5步继续执行。

步骤4 将图像/帧重新分配为 $ B_k(z) = B_{k+1}(z) $，$ B_{k+1}(z) = B_{k+2}(z) $，然后转到步骤6。

步骤5 保留 $ B_k(z) = B_k(z) $ 并设置 $ B_{k+1}(z) = B_{k+2}(z) $。
步骤6 重复步骤3，直到 $ B_{k+1}(z) \leq K $。

步骤7 通过假设场景边界来提取具有显著变化的图像/帧，以消除冗余。对于从单一场景中提取的相似帧，由于它们通常具有很多共同点，因此无需考虑。
场景边界可以通过直方图差异、时间序列分析或任何其他当前可用的技术 [7] 来确定。下图展示了从游客视频中提取的具有相似和不同内容的帧。具有相似内容的帧在水平方向上排列。

应用专门设计的相似性度量（针对所使用的低层特征）可确保图像变化检测的高质量。通过使用加权特征估计可以增强该过程，因为在这种情况下仅使用具有相同权重系数的线性组合。附加特征也可能提升该过程的效果。
确定每个特征的重要性是未来研究的主要方向。

5 测试集、处理评估和发展趋势

每个应用领域都有其特定性，但在处理实际的工业、医疗或其他视频跟踪物体之前，需要专门的测试集合。然而，目前尚无为这类目的设计的通用视频集合。因此，研究人员根据自身意愿选择视频测试样本，并提供完整的描述，包括视频名称、长度、内容类型、帧/镜头/场景数量以及来源。这些数据是公开可用的。

来自 CERN 文档服务器（粒子物理实验室）、开放视频项目（ http://www.open-video.org）、电影内容分析项目（ http://pi4.informatik.uni-mannheim.de/pi4.data/content/projects/moca/index.html）和互联网档案馆（http://archive.org）的收藏是视频测试样本的主要来源。有时也会考虑使用商业广告和自制的高分辨率视频，因为公开可用的收藏通常缺乏高分辨率。定制视频也用于特定应用领域的测试，例如银行或街道行人跟踪。下图展示了 TRECVid 社区在测试中所使用的视频样本的常见类别。除了传统视频来源外，还可以选择来自数字视频库（DVL）的片段：Informedia 数字视频库（ http://www.informedia.cs.cmu.edu）、消费者数字视频库（http://www.cdvl.org/）、半球研究所数字视频库（http://hidvl.nyu.edu/）、哈佛‐史密松天体物理中心数字视频库（http://hsdvl.org/）等。部分数字视频库的资料无法下载，但可在申请后允许用于研究用途。常用的人体动作识别视频数据集包括：KTH、魏茨曼、IXMAS、UCF50、HMDB51。更多不太知名的数据集完整列表可访问 http://www.datasets.visionbib.com/info-index.html 和 http://www.cvpapers.com/datasets.html [8]。

所有开源材料通常都具有小尺寸和低分辨率。然而，通过降低这些图像特征，细节会与背景混合在一起；而通过增强这些图像特征，图像信息的细节层次会增加（见下图）。因此，使用不同尺寸和分辨率测试任何图像处理方法都是关键点之一。最常用的视频标准包括 PAL（720 * 576）、高清（1280 * 720）和全高清（1920 * 1080）。下表列出了目前可用于测试目的的合理视频标准。

有人可能认为，使用三到四个不同（甚至相同）内容类型的测试样本就足够了，而另一些人则会在 20 至 100 部时长超过一小时的电影上测试其专有方法。图像和视频类型对所使用的视觉特征有很大影响。因此，为了获得真实的结果，应在不同类型的数据上进行测试：新闻、体育、动画片、纪录片、访谈节目，除非所设计的方法针对的是具有同构内容的受限应用领域 [14]。

根据上述考虑，测试视频应包含相机运动、变焦和光照条件变化，因为某些视频处理方法（尤其是为跟踪设计的方法）可能无法应对这些变化。如前所述，任何图像和视频处理方法都应在不同尺寸和分辨率的数据上检验其质量和性能；当涉及图像序列和视频时，这些数据还应包含较大和较小的帧间差异。有研究发现，某些方法在大多数测试集上表现良好，但在人脸识别以及图像中重叠的文本信息处理方面却常常失败 [8]。

检测到的图像变化的准确性是一个主观问题，因为每次评估都涉及受访者，且几乎是通过精确率（找到的相关样本数量）和召回率（相关样本总数中被找到的数量）来进行评估。

从所有相关样本中找到了相关的样本。同时使用这两个指标的好处是显而易见的。在许多情况下，其中一个指标显得更为重要。一些受访者不希望得到任何错误分类的结果，他们希望输出数量尽可能少，但所有输出都必须是相关的（高精确率）。相反，另一些受访者则更关注高召回率，他们对较低的精确率持宽容态度。精确率和召回率彼此矛盾。通过简单地返回所有值（无论正确与否），召回率总可以提高到“1”，但此时精确率会非常低。在这种情况下，错误输出数量的增加不会降低召回率（但会降低精确率）。一般来说，应在两者之间实现足够的平衡。F 值提供了一种实现这种平衡的方法 [18]。除了传统的精确率和召回率度量外，有时还可以计算错误检测到的本质（例如显著变化）与漏检的本质之间的百分比。之前的估计是基于受访者提供的信息并结合一些补充计算得出的，而信息性和愉悦性准则则直接反映用户的反馈。任何方法的评估都可以使用保真度度量和压缩比来进行。实际上，这种评估可以通过数值、图形或其他形式的比较来实现，展示不同图像处理算法在实施后的结果，从而说明所提出算法的优缺点。研究人员和开发人员应检查图像/视频处理的有效性、性能和质量。通常认为，至少需要 20 名受访者才能获得可靠的估计。专家评估可以是绝对的或比较性的。前者意味着存在某种可行性尺度，而后者则假设按质量对结果或方法进行排序。表达绝对专家评估最简单的方法是计算平均值 [14]。

使用任何聚类技术时，为了检查簇是否被良好分离，需使用聚类有效性度量。该度量提供关于簇内和簇间距离的数值信息。在大多数统计软件中，实现了计算每个簇内部的平均/最大/最小距离的功能，以及距离总和的计算能力、欧氏距离、平方欧氏距离等。Matlab 轮廓图可直观展示簇内和簇间距离。当图中值为 ‘+1’ 时，表示来自不同簇的观测值彼此之间最大程度地远离；当图中值接近 ‘0’ 时，表示这些观测值过于接近，簇的划分可能存在错误；当图中值趋近于 ‘–1’ 时，表明观测值很可能被错误地分配到了簇中。

本章节介绍的理论与实践成果有助于大规模图像序列的索引与归档、摘要与标注、搜索与编目。在不久的将来，研究工作很可能会集中在以中层作为低层视觉特征与高层概念之间的连接单元的探索性方法上，这些方法必须在性能和有效性方面满足实时处理的要求 [8]。所提出的图像变化检测方法具有独特性，除预定应用外，还可实现于多种应用场景中。

6 结论

对运动物体进行高层描述的尝试表明，只有特定的运动模式才能被机器识别。
当前的发展水平尚不允许实现能够处理多种内容类型的语义通用系统 [8]。

基于逐帧基础的机器级视频内容比较问题，即图像变化检测，早在几十年前就已出现。本章节概述了全球范围内用于解决上述问题所采用的智能方法。
作者提出与此相关的新方法也在本章中进行了详细描述。该方法利用高阶沃罗诺伊图，具备显著点操作的所有优势，从而在变化检测的可靠性与性能方面优于现有方法。

使用沃罗诺伊图表示图像序列并进一步进行图比较，为机器解释物体在时空中的移动提供了手段。连续视频帧中的相似内容会产生相同的图，而提出的图比较度量能够识别细微和显著变化。与增加初始显著点的数量相比，高阶沃罗诺伊图简化了图像内容的细化。此外，在图像变化检测方面还揭示了高阶沃罗诺伊图的一些其他有用特性。

图像和视频处理的评估是任何新方法开发中不可或缺的一部分。此类评估的复杂性在于受访者所提供的估计具有主观性。通过分析常用可应用度量，已确定出若干估计器，用于测试视觉处理的有效性和性能。最常用的精确率和召回率度量可通过 Dice 系数的形式结合，以在两者之间取得合理的平衡。
文中论证了在不同图像类型、高尺寸与低尺寸以及不同分辨率图像上进行测试的重要性。由于聚类算法在图像和视频处理中被广泛应用，本文也讨论了聚类有效性度量。提到了开源测试视频样本的数据集，其中 TRECVid 集合、互联网档案馆、电影内容分析项目和开放视频项目最受欢迎。同时也列举了一些使用较少的视频库。