图管理与挖掘（七）精确和不精确图匹配：方法和应用

本文链接：https://blog.youkuaiyun.com/m0_63444889/article/details/143110931

老师说要先看这个基础知识，我现在开始看，今天是2024年10月21号星期一

一.简介

经过多年的研究，模式识别、机器学习和数据挖掘等领域已经达到了很高的成熟度[4]。用于分类、聚类、信息检索和其他任务的强大方法已经出现。然而，这些方法中的绝大多数依赖于以特征向量的形式给出的对象表示。这样的对象表示有许多有用的属性。例如，用欧几里得距离可以很容易地计算出两个物体的不相似度或距离。此外，对于智能信息处理中的数据挖掘、信息检索和相关任务，已经有了大量完善的方法。然而，最近人们对基于图的对象表示越来越感兴趣[16]。图是功能强大且通用的数据结构，能够显式地为给定对象的子结构之间的关系网络建模。因此，可以将图的大小和复杂性用于特定对象的大小和复杂性（与矢量方法相反，矢量方法必须事先确定特征的数量）。

然而，在70年代后期，图形表示的“聪明”和灵活性引发了最初的热情之后，许多问题变得明显起来。首先，处理图比处理特征向量更具挑战性，因为即使是基本的数学运算也不能以标准的方式定义，而必须根据具体的应用程序提供。因此，几乎没有数据挖掘、机器学习或模式识别的常用方法可以在不进行重大修改的情况下应用于图

其次，图表本身的灵活性不足。例如，计算一对对象的距离，这在许多领域是一项重要的任务，在使用向量的情况下，数据项的数量是线性的。然而，对于图来说，同样的任务要复杂得多，因为人们不能简单地比较节点和边的集合，它们通常是无序的，大小不一。更正式地说，当计算图的不相似度或相似度时，必须通过考虑图的所有子图来识别图的公共部分。考虑到一个节点为 $n$ 的图有 $O(2^{n})$ ）个子图，图比较的固有难度就很明显了。

尽管在图域存在不利的数学和计算条件，但文献[15]中已经提出了评估图的接近性（即相似或不相似）的各种方法。评估两个图的相似度的过程通常被称为图匹配。图匹配的总体目标是找到两个图的节点和边之间的对应关系，这些对应关系或多或少地满足一些严格的约束。即通过图匹配过程，将一个图中的相似子结构映射到另一个图中的相似子结构。基于这种匹配、不相似度或相似度得分最终可以计算出来，表明两个图的接近程度。

在过去的几十年里，图匹配一直是计算机科学中众多研究的主题。粗略地说，图匹配有两类任务，即精确匹配和不精确匹配。在前一种情况下，为了成功匹配，需要在匹配的两个图之间，或者至少在它们的子部分之间找到严格的对应关系。在后一种方法中，这个要求基本上是宽松的，因为完全不相同图之间的匹配也是可能的。也就是说，非精确匹配算法对误差和噪声具有一定的容忍度，使其能够以比精确匹配方法更通用的方式检测相似性。因此，不精确图匹配又称为容错图匹配。

对于图匹配方法和应用的广泛回顾，请参考[15]。在本章中，介绍了基本的符号和定义（第2节），并概述了精确图匹配和容错图匹配的标准技术（第3节和第4节）。在第3节中，讨论了精确图匹配中由图同构、子图同构和最大公共子图导出的不相似模型。在第4节中，讨论了不精确图匹配，特别是应用于图的编辑距离范例。最后，综述了图匹配的两种最新应用。首先，在第5节中描述了一个基于图匹配的信息检索算法框架。该方法基于精确和不精确图匹配过程，旨在查询大型数据库图。其次，在第6节中回顾了基于图匹配的图嵌入过程。该框架旨在在真实向量空间中显式嵌入图，从而建立对分类、聚类、回归和其他任务的丰富算法工具库的访问，这些工具最初是为向量表示而开发的

二.基本符号

根据所考虑的应用程序，可以在文献中找到图的各种定义。事实证明，下面给出的定义对于各种各样的任务来说是足够灵活的。

定义7.1（图）

设 $L_{V}$ 和 $L_{E}$ 分别为节点和边的有限或无限标签字母表。图 $g$ 是一个四元组 $g = (V,E,\mu,\nu )$ ，其中

$V$ 为节点的有限集，
$E \subseteq V \times V$ 为边集，
$\mu = V \rightarrow L_{V}$ 为节点标注函数
$\nu :E \rightarrow L_{E}$ 为边缘标注函数。

图 $g$ 的节点数用 $\left | g \right |$ 表示，而 $G$ 表示标签字母 $L_{V}$ 和 $L_{E}$ 上的所有图的集合。

定义7.1允许我们使用不受约束的标记函数处理任意结构的图。例如，节点和边的标签可以由整数集 $L =\left \{ 1,2,3,\cdots \right \}$ ，向量空间 $L =R^{n}$ ，或符号标签集 $L = \left \{ \alpha,\beta,\gamma,\cdots \right \}$ 给出。给定节点和/或边缘被标记，图被称为标记图。未标记图作为一种特殊情况，通过为所有节点和边分配相同的标签 $\varepsilon$ 来获得，即 $L_{V}=L_{E}=\left \{ \varepsilon \right \}$ 。

边由节点对 $\left ( u,v \right )$ 给出，其中 $u \in V$ 表示有向边的源节点， $v \in V$ 表示有向边的目标节点。通常，由一条边 $\left ( u,v \right )$ 连接的两个节点 $u$ 和 $v$ 称为相邻节点。如果所有节点对相邻，则称为完全图。有向图直接对应于上面的定义。此外,无向图的类可以被插入一个反向建模的边 $\left ( v,u \right ) \in E$ 为每条边 $\left ( u,v \right ) \in E$ 与相同的标签,例如 $\nu\left ( u,v \right ) = \nu\left ( v,u \right )$ 。图7.1显示了一些图（有向/无向，有标记/无标记）。

图7.1 不同类型的图：

(a)无向无标记，(b)有向无标记，(c)有标记节点的无向图（不同灰色深浅表示不同的标签），(d)有标记节点和边的有向图。

定义7.2（子图）

定义 $g_{1} =\left ( V_{1},E_{1},\mu_{1},\nu_{1} \right )$ 和 $g_{2} =\left ( V_{2},E_{2},\mu_{2},\nu_{2} \right )$ 为图。图 $g_{1}$ 是 $g_{2}$ 的一个子图，用 $g_{1} \subseteq g_{2}$ 表示,如果

$V_{1} \subseteq V_{2},$
$E_{1} \subseteq E_{2},$
$\mu_{1}(u) = \mu_{2}(u), for \,all \,u \in V_{1}$
$\nu_{1}(e) = \nu_{2}(e), for \,all \,e \in E_{1}$

将定义7.2中的条件(2)替换为更严格的条件（2’） $E_{1} = E_{2} \cap V_{1} \times V_{1}$ , $g_{1}$ 变成 $g_{2}$ 的诱导子图。如果 $g_{2}$ 是 $g_{1}$ 的子图，则图 $g_{1}$ 称为 $g_{2}$ 的超图。

显然，子图 $g_{1}$ 是从图 $g_{2}$ 中通过删除一些节点及其事件，以及可能从 $g_{2}$ 中删除一些额外的边得到的。对于푔1是푔2的诱导子图，从푔2中删除一些节点，并且只删除它们的关联边，即不允许额外删除边。

图7.2(b)和7.2(c)分别显示了图7.2(a)图的诱导子图和非诱导子图。

中间的我在寝室看的纸质版

四.不精确图匹配

由于所考虑的模式的内在可变性和图提取过程中产生的噪声，不能期望代表同一类对象的两个图在结构上完全相同，或者至少在很大程度上相同。此外，如果使用节点或边缘标签字母퐿来描述底层模式的非离散特性，例如퐿≥≥푛，则实际的图极有可能与其理想模型有所不同。显然，这种噪声严重阻碍了精确图匹配技术的适用性，因此精确图匹配很少在实际应用中使用。

为了克服这一缺点，建议赋予图匹配框架一定的容错能力。也就是说，匹配过程必须能够通过在一定程度上放松底层约束来适应图的差异。在本节的第一部分中，引入了图编辑距离的概念，以举例说明不精确图匹配的范例。在第二部分，简要讨论了其他几种不精确图匹配的方法。

4.1图形编辑距离

图编辑距离[8,71]提供了一种将误差容差集成到图匹配过程中的直观方法，几乎适用于所有类型的图。最初，编辑距离是为字符串匹配而开发的[93]，并且已经为字符串和图形提出了大量的编辑距离变体和扩展。关键思想是通过反映结构和标签修改的编辑操作来建模结构变化。一组标准的编辑操作由节点和边的插入、删除和替换给出。请注意，其他编辑操作，如合并和分割节点[2]，在某些应用程序中可能很有用。给定两个图，源图 $g_{1}$ 和目标图 $g_{2}$ ，图编辑距离的思想是删除 $g_{1}$ 中的一些节点和边，重新标记（替换）一些剩余的节点和边，并在 $g_{2}$ 中插入一些节点和边，使 $g_1$ 最终转化为 $g_2$ 。编辑操作的序列 $e_1,cdots,e_k$ 例如，将 $g_1$ 转换为 $g_2$ 的 $\mathrm{edit\, path}$ 称为 $g_1$ 和 $g_2$ 之间的编辑路径。图7.6给出了两个图 $g_1$ 和푔 $g_2$ 之间的编辑路径示例。该编辑路径包括三个边删除、一个节点删除、一个节点插入、两个边插入和两个节点替换。

图7.6 图푔 $g_1$ 和图 $g_2$ 之间可能的编辑路径（节点标签用不同的灰色表示）

设 $\gamma(g_1,g_2)$ 表示两个图 $g_1$ 和 $g_2$ 2之间所有可能的编辑路径的集合。显然，两个图 $g_1$ 和 $g_2$ 之间的每个编辑路径都是一个描述图的子结构之间的对应关系的模型。也就是说， $g_1$ 的节点要么被删除，要么被 $g_2$ 中的节点唯一地替换，类似地， $g_2$ 中的节点要么被插入，要么被 $g_1$ 中的唯一节点匹配。这同样适用于边。[58]中报道了模糊编辑路径的思想，其中节点和边可以同时映射到多个节点和边。然后用二次规划的方法确定最优模糊编辑路径。

为了从 $\gamma(g_1,g_2)$ 中找到最合适的编辑路径，我们引入了每个编辑操作的成本，测量相应操作的强度。这种代价的概念是定义编辑操作是否表示对图的强修改。显然，在两个相似的图之间，应该存在一个低成本的编辑路径，表示低成本的操作，而对于不同的图，则需要一个高成本的编辑路径。因此，两个图的编辑距离由两个图之间的最小代价编辑路径来定义

定义7.7（图形编辑距离）

让 $g_1 = (V_1,E_1,\mu_1,\nu_1)$ 作为源图， $g_2 = (V_2,E_2,\mu_2,\nu_2)$ 作为目标图。图形 $g_1$ 和 $g_2$ 之间的编辑距离定义为

$d(g_1,g_2) = \underset{(e_1,\cdots ,e_k) \in \gamma(g_1,g_2)}{\mathrm{min}} \, \underset{i=1}{\overset{k}{\sum}} c(e_i),$

其中 $\gamma (g_1,g_2)$ 表示将 $g_1$ 转换为 $g_2$ 的编辑路径的集合，并且 $c$ 表示成本函数测量的编辑操作 $e$ 的强度 $c(e)$ 。

在基于编辑距离的图匹配中，适当的和特定应用的成本函数的定义是一个关键任务。图的标签的先验知识往往是不可避免的图编辑距离是一个合适的接近度量。这个事实通常被认为是图形编辑距离的主要缺点之一。然而，相反，通过成本函数参数化图编辑距离的可能性对这种不相似模型的通用性至关重要。也就是说，在定义基本编辑操作的成本时，通过图编辑距离可以集成关于对象相似性的领域特定知识（如果可用）。此外，如果在特定情况下没有关于标签及其含义的先验知识，也可以使用从一组样本图中学习编辑成本的自动程序[55,56]。

成本函数的总体目标是倾向于弱扭曲，而不是图的强修改。因此，成本是根据底层节点或边缘标签来定义的，即成本 $c(e)$ 是一个依赖于编辑操作 $e$ 的函数。通常，对于数值节点和边缘标签，欧几里得距离可以用来模拟图上特定替换操作的代价。对于节点和边的删除和插入，通常分配一个恒定的代价 $\tau_{node} / \tau_{edge}$ 。我们把这个成本函数称为欧几里得成本函数。

欧几里得代价函数定义了与两个标签的欧几里得距离成正比的替代代价。这种方法背后的基本直觉是，两个标签距离越远，与相应替换相关的扭曲就越强。注意，任何成本高于 $2 \cdot \tau_{node}$ 的节点替换都将被相关节点的删除和插入组合所取代（对边的解释相同）。这种行为在一定程度上反映了替换应该比删除和插入更受欢迎的基本直觉

计算图 $g_1$ 和 $g_2$ 编辑距离的最优算法通常基于组合搜索过程，该过程探索 $g_1$ 的节点和边到 $g_2$ 的节点和边的所有可能映射的空间[8]。这些过程的一个主要缺点是它们的计算复杂性，在涉及的图的节点数量上是指数级的。因此，编辑距离计算的最优算法在实际应用中仅限于较小尺寸的图。

为了减少图形编辑距离计算对计算量的要求，提出了许多次优方法。在一些方法中，基本思想是执行局部搜索来解决图匹配问题，即优化局部标准而不是全局标准或最优标准[57,80]。文献[40]提出了一种计算无标记边图编辑距离的线性规划方法。该方法可以在多项式时间内推导出编辑距离的上下边界。[59]提出了两种快速但次优的图编辑距离计算算法。作者提出了一个标准编辑距离算法的简单变体，使计算速度大大提高。[20]中提出了另一种次优方法。基本思想是将图分解成一组子图。这些子图由一个节点及其相邻的节点和边组成。然后，图匹配问题被简化为在子图集之间寻找匹配的问题。在[67]中，提出了一种与[20]中描述的方法有些相似的方法。然而，虽然局部子结构之间的最优对应关系在[20]中是通过动态规划找到的，但在[67]中采用了二部匹配过程[53]。

4.2其他不精确图匹配技术

本文还提出了其他几种重要的容错图匹配算法。其中，基于人工神经网络、松弛标记、谱分解和图核的算法已被报道

人工神经网络

一类容错图匹配方法采用人工神经网络。在两篇开创性的论文[24,81]中，证明了神经网络可以用于分类有向无环图。这些算法基于能量最小化框架，并使用某种Hopfield网络[84]。Hopfield网络由一组由突触连接的神经元组成，这样，一旦网络被激活，神经元的输出就会反馈到网络中。通过迭代学习过程，最小化给定的能量准则。类似于松弛标记的方法（见下文），相容性系数用于评估两个节点或边是否构成成功匹配。

在[83]中，优化过程通过Potts MFT网络来稳定。在[85]中，引入了一个自组织Hopfield网络，它学习了大多数网络参数，并且消除了先验指定它们的需要。在[52,72]中，图神经网络得到了关键的扩展，使得无向图和无环图也可以处理。一般的思想是在编码网络中表示图的节点。在这个编码网络中采用局部转移函数和局部输出函数，分别表示节点对其邻域的依赖性和描述如何产生输出。由于这两个函数都是由前馈神经网络实现的，因此编码网络可以解释为一个循环神经网络。

基于人工神经网络的图匹配的进一步例子可以在[37,73,101]中找到。

松弛标签

另一类容错图匹配方法采用松弛标记技术。这种特殊方法的基本思想是将图匹配问题表述为标记问题。一个图的每个节点被分配到一个可能标签的离散集合中的一个标签，指定另一个图的匹配节点。在匹配过程中，使用高斯概率分布来建模兼容性系数，度量每个候选标签的适合程度。基于节点属性、节点连通性和其他可用信息的初始标记，然后在迭代过程中进行细化，直到找到足够准确的标记，即两个图的匹配。基于[22]中提出的开创性工作，松弛标记的思想在一些贡献中得到了完善。在[30,41]中，松弛标记的概率框架被赋予了理论基础。在[14]中克服了该技术初始化的主要缺点，即节点和边缘标签仅在匹配过程的初始化中使用。在[97]中引入了该框架的一个重要扩展，其中采用贝叶斯一致性度量来推导图距离。在[35]中，通过在一致性度量的评估中考虑边缘标签，进一步改进了该方法。贝叶斯图编辑距离的概念在文献[54]中提出，实际上是建立在概率松弛的思想之上的。这个概念也被成功地应用于特殊类型的图，如树[87]。

光谱方法

谱方法构建了另一类图匹配过程[13,47,70,78,90,98]。这种方法的总体思想基于以下观察。图的邻接矩阵或拉普拉斯矩阵的特征值和特征向量对于节点置换是不变的。因此，如果两个图是同构的，它们的结构矩阵将具有相同的特征分解。反之，即从特征分解的等式推导出图同构，一般是不成立的。然而，通过对底层图的结构矩阵进行特征分解来表示底层图，可以对图的特征分解得到的一些特征进行匹配处理。光谱方法的主要问题是它们对结构错误相当敏感，如缺失或虚假节点。此外，这些方法中的大多数都是纯结构化的，也就是说它们只适用于未标记的图，或者它们只允许严格约束的标签字母表。

图核方法

核方法最初是为向量表示而开发的，但是核框架可以以一种非常自然的方式扩展到图形。许多图核被设计用于图匹配[26,57]。一个开创性的贡献是卷积核的工作，它为处理由更简单部分组成的复杂对象提供了一个通用框架[32,95]。卷积核从复杂物体各部分的相似性推断出它们的相似性

第二类图核是基于图中随机游走的分析。这些核通过两个图中具有全部或部分共同标签的随机行走的次数来度量两个图的相似性[5,27]。文献[27]报道了一个重要的结果。结果表明，通过两图的积图可以计算出两图中匹配的行走次数，而不需要显式地枚举行走次数。为了处理连续标签，在[5]中对随机行走核进行了扩展。这个扩展允许人们也考虑到非相同标记的行走。

第三类图核是由扩散核给出的。该类的核是根据一个基本的相似性度量来定义的，这个相似性度量用来构造一个有效的核矩阵[42,79,92]。这种基本相似性度量只需要满足对称条件，并且可以定义为任何类型的对象。

各种各样的方法

文献中还提出了其他几种容错图匹配方法，例如基于期望最大化算法的图匹配[46]、基于复制器方程的图匹配[61]和基于分级分配的图匹配[28]。图中的随机游走[29,69]、近似最小二乘法和插值理论算法[91]以及随机图[99]也被用于容错图匹配

五.数据挖掘与信息检索中的图匹配

图和图匹配的使用已经成为数据挖掘和相关领域的一种很有前途的方法[16]。事实上，查询图数据库有着悠久的传统，可以追溯到子图同构检测的第一个算法出现的时候。然而，在基于图的数据挖掘中使用传统的子图同构存在严重的局限性。首先，底层数据库图通常包含相当多的属性，其中一些属性可能与特定查询无关。第二个传统的子图同构提供了有限的答案格式，它只能检查查询图是否嵌入到更大的数据库图中。第三，原始模式下的子图同构不允许对查询的属性施加约束，以模拟限制或依赖关系。

在[6]中描述的广义子图同构检索过程克服了这三个限制。首先，该方法提供了在查询中屏蔽属性的可能性。为此，为不相关的属性引入了don 't care值。其次，为了从数据库图中检索更具体的信息，而不仅仅是二元决策“是”或“否”，需要使用变量。通过这些变量，可以从数据库图中检索特定属性的值。第三，约束变量的概念（例如，只能假设某个区间内的值的变量）允许定义更具体的查询。

[6]中提出的知识挖掘和信息检索方法是基于通过查询图来指定查询的思想，查询图可用于从大型数据库图中提取信息。与定义7.1相比，使用的图以更一般的方式定义。图中的每个节点都由一个类型和一些属性来标记，而不是仅仅使用一个标签。边也是如此。在图7.7 (a)中显示了一个查询图的示例。在此示例中，节点的类型为person，并标记为该人员的名和名以及电子邮件地址。边的类型为电子邮件，并标有电子邮件的主题、日期和大小。请注意，通常在同一图中可能会出现不同类型的节点和边

查询图比普通图更通用，因为它不关心符号和变量可能作为节点和边上的属性值出现。变量的目的是定义那些属性，这些属性的值将作为查询的答案返回（稍后我们将回到这一点）。在图7.7 (b)中，给出了一个带有变量 $\left ( X,Y \right )$ 和不关心符号（−）的查询图示例。根据这个查询，我们对John Arnold发给Ina Rangel的电子邮件的主题 $(X)$ 和日期 $(Y)$ 特别感兴趣。由于我们不关心邮件的大小，也不知道Ina Rangel的邮箱地址，所以使用了两个不关心的符号。变量也可能出现在查询中，因为它们可能用于表示对一个或多个属性值的约束。查询图中出现的一组变量的约束是对一个或多个变量的条件，如果我们为每个变量分配具体的属性值，则计算结果为true或false。例如，图7.7 (b)中的查询可以通过所讨论的电子邮件是在10月1日和10月3日之间发送（正式形式为9/31/00 <푌< 10/4/00）这一约束进行扩充。

(a)查询图 (b)查询有变量的图，不关心符号

(c)数据库图

图7.7 查询和数据库图

一旦用户构造了查询图，就将它与数据库图进行匹配。将查询图与数据库图匹配的过程本质上意味着我们想要找出从查询到数据库图是否存在子图同构。显然，由于查询图可能包含无关符号和变量，我们需要一个比定义7.4中提供的更一般的子图同构概念。查询图和数据库图之间的这种广义子图同构称为匹配，即，如果查询图 $q$ 匹配数据库图 $G$ ，则我们将内射函数 $f$ 称为 $q$ 和 $G$ 之间的匹配。请注意，对于给定的 $q$ 和 $G$ 以及 $q$ 中变量的给定约束集，可以有零个、一个或多个匹配项

对于匹配，我们要求查询图的每条边都包含在数据库图中。通过内射函数 $f$ ，节点 $u$ 只能映射到相同类型的节点。如果查询图的节点 $u$ 的（type, attribute）对包含一个属性值 $x_i$ ，则需要在数据库图中节点 $f(u)$ 的（type, attribute）对的对应位置出现相同的值。不在意节点的（type, attribute）对中出现的符号 $u$ 将匹配节点 $f(u)$ 的（type, attribute）对中相应位置的任何属性值。类似地，不受约束的变量匹配 $f(u)$ 中相应位置的任何属性值。如果查询图中的某个变量存在约束，则 $f(u)$ 中相应位置的属性值必须满足这些约束。

通过变量，我们指示知识挖掘系统将返回哪些属性值作为查询的答案。因此，如果数据库图中不包含作为子结构的查询图结构，则查询的答案可以是no，如果查询图在数据库图中作为子结构存在（至少一次），并且查询图不包含任何答案变量，则查询的答案可以是yes。如果在查询图中定义了答案变量，并且找到了一个或多个匹配项，则为每个匹配项 $f_i$ 生成一个单独的答案。答案的形式是 $X_1 = {x}'_i,\cdots,X_n={x}'_n$ 其中 $X_1,\cdots,X_n$ 是查询中出现的答案变量， ${x}'_i$ 是数据库图中与匹配 $f_i$ 下的变量 $X_i$ 对应的属性值。显然，图7.7 (b)中的查询图与图7.7 (c)中的数据库图是匹配的。

因此，变量由 $X=\mathrm{ Slides}$ 和 $Y = \textrm{10/4/00}$ 链接。

到目前为止所描述的建议系统在没有找到匹配时不会从数据库图返回任何信息。然而，在某些情况下，这种行为可能是不可取的。例如，让我们考虑一个包含虚假属性值或边的查询图，这些值或边不会在底层数据库图中出现。目前所提供的图匹配框架仅仅返回答案no，因为它在数据库图中没有找到匹配。然而，我们可以很容易地赋予图同构框架一定的容错能力。为此，可以使用图形编辑距离。在查询图与数据库图不可能完全匹配的情况下，将对查询进行最小程度的修改，使匹配成为可能。在一定程度上容忍错误的基础上增强数据挖掘框架的可能性，无疑说明了这个基于图匹配的特定过程的强大功能。

在[6]中描述了一种算法过程，用于查找查询 $q$ 和数据库图 $G$ 之间的匹配。这个过程通过构造所有可能的映射 $f:V_1 \rightarrow V_2$ 来检查两个给定的图 $q$ 和 $G$ 是否存在从 $q$ 到 $G$ 的匹配。该匹配算法具有指数复杂度。然而，由于底层查询图的大小通常是有限的，并且由于属性和约束极大地限制了匹配的潜在搜索空间，因此该算法的计算复杂度通常仍然是可管理的，如[6]报道的实验所示。

对于出现大型查询图的应用，[86]中引入了一种新的近似查询图数据库的方法。该算法的过程如下。首先，从查询图中选择一些重要节点。例如，节点的重要性可以通过它们的度来衡量。使用标签、度和关于节点的本地邻域的信息，将最重要的节点与数据库图节点进行匹配。显然，通过此过程，查询图中的每个节点都可以映射到多个数据库节点，反之亦然。给定单个节点映射的质量标准，可以应用二分优化过程，从而在查询节点和数据库节点之间产生一对一的对应关系。二分匹配过程返回的节点对作为完全匹配的锚点。基于这些锚点，迭代扩展初始图匹配。对于已经映射到数据库节点的每个节点，将尝试将其附近的节点（最多两跳的节点）映射到数据库节点。这个扩展是重复的，直到没有更多的节点可以添加到匹配。显然，与[6]中描述的方法相比，这个过程在寻找数据库图中与查询图相似但不一定相等的子图的意义上是次优的。作为交换，建立了一个适用于非常大的查询图（数百到数千个节点和边）的图匹配框架

六.通过图匹配的图向量空间嵌入

对象的分类和聚类是智能信息处理中的常见任务。分类是指将一个未知的输入对象分配给一组给定类中的一个的过程，而聚类是指将一组给定对象划分为同质组的过程。文献中已经提出了大量的分类[19]和聚类[100]算法。几乎所有这些算法都是为用特征向量给出的对象表示而设计的。这意味着严重缺乏用于图分类和聚类的算法工具。这种缺乏主要是由于分类和聚类所需的一些基本操作不适用于图。换句话说，虽然可以通过特定的图匹配过程来定义图的不相似性度量，但对于智能信息处理中的标准算法来说，这通常是不够的。事实上，基于图距离的模式识别基本上仅限于最近邻分类和 $k$ -中位数聚类[57]。

克服这种严重限制的一个有希望的方向是将图嵌入到向量空间中。基本上，这种图的嵌入建立了对为向量表示而开发的算法工具的丰富存储库的访问。例如，在[47]中，研究了从图的特征分解中得到的特征。另一个想法是将字符串编辑距离应用于图的特征系统[96]。这个过程产生图形之间的距离，用于通过多维缩放将图形嵌入到向量空间中。在[98]中，作者转向图的拉普拉斯矩阵的谱分解。它们展示了拉普拉斯谱矩阵的元素如何被用来构造对称多项式。为了将图编码为向量，这些多项式的系数被用作图的特征。图嵌入的另一种方法在[70]中被提出。作者利用拉普拉斯-Beltrami算子之间的关系和图拉普拉斯算子在黎曼流形中嵌入图.

本节考虑了一类新的基于不相似表示和图匹配的图嵌入过程。这个想法最初是在[60]中提出的，目的是将特征向量映射到不相似空间中。后来它被推广到基于字符串的对象表示[82]和图的领域[62]。通过计算到一些预定义的原型图的距离，将给定问题域的图映射到向量空间。得到的距离可以用作所考虑的图的向量表示。

形式上，假设我们有一组示例图 $\tau =\left \{ g,\cdots,g_N \right \}$ 从某个图域 $G$ 和任意图不相似度测度 $d: G\times G \rightarrow \mathbb{R}$ 注意 $\tau$ 可以是任何类型的图集。但是，为了方便起见，我们将 $\tau$ 定义为给定图的训练集。在选择一组原型图 $P \subseteq \tau$ 后，我们计算给定输入图 $g$ 与每个原型图 $p_i \in P$ 的不相似度。注意 $g$ 可以是 $\tau$ 或任何其他图集 $S$ 的一个元素。给定 $n$ 原型，即 $P = \left \{ p_1, \cdots ,p_n \right \}$ ，此过程导致 $n$ 不相似， $d_1 = d(g,p_1),\cdots,d_n= d(g,p_n)$ ，可以排列成 $n$ 维向量 $\left ( d_1,\cdots,d_n \right )$ 。

定义7.8（图嵌入）

假设给定了一个图域 $G$ 。如果 $\tau = \left \{ g,\cdots,g_N \right \} \subseteq G$ 是一个具有 $N$ 个图的训练集， $P = \left \{ p_k,\cdots ,p_n\right \}$ 是一个具有 $n$ 个图的原型集，其映射

$\varphi_{n}^{P}:G \rightarrow \mathbb{R}^{n}$

定义为函数

$\varphi _{n}^{P}(g)=(d(g,p_1),\cdots,d(g,p_n))$

其中 $d(g,p_i)$ 是图 $g$ 与第 $i$ 个原型图之间的任何图的不相似度度量。

显然，通过这个定义，我们得到一个向量空间，其中每个轴对应一个原型图 $p_i \in P$ ，嵌入图 $g$ 的坐标值是 $g$ 到 $P$ 中元素的距离。通过这种方式，我们可以将训练集 $\tau$ 中的任何图 $g$ 以及任何其他图集 $S$ （例如分类问题的验证或测试集）转换为实数向量。在[65]中，这一过程进一步推广到Lipschitz嵌入[33]。而不是单例引用集(即。原型 $p_1,\cdots,p_n$ )，原型集 $P_1,\cdots,P_n$ ，通过不相似度嵌入图形

[62]中提出的嵌入方法利用了图编辑距离。但是，请注意，也可以使用任何其他图的不相似性度量。然而，使用图编辑距离允许我们处理大量的图（有向图、无向图、无标签图、来自任何有限或无限域的节点和/或边缘标签）。此外，可以期望对各种图形扭曲具有高度的鲁棒性。因此，与其他有时对底层图的类型施加限制的图嵌入技术（例如[47,70,98]）相比，这种方法的特点是在图定义中具有高度的灵活性。由于图编辑距离的计算在一般图的节点数上是指数的，因此这种图嵌入的复杂度也是指数的。然而，如第4节所述，对于具有三次时间复杂度的图编辑距离计算，存在有效的近似算法（例如[67]中描述的过程）。因此，给定 $n$ 个预定义原型，通过多项式时间的 $n$ 距离计算来建立一个特定图的嵌入

非相似性嵌入与核方法密切相关[75,77]。在核方法中，对象是通过成对核函数来描述的，而在不相似方法中，对象是通过成对不相似度来描述的。然而，在核嵌入和不相似嵌入之间有一个根本的区别。在前一种方法中，核值被解释为隐式存在的特征空间中的点积。通过核机，底层算法最终在这个核特征空间中执行。在后一种方法中，差异集被解释为对所考虑的对象的一种新的矢量描述。因此，得到的不是隐式的特征空间，而是显式的不相似空间。

显然，通过映射 $\varphi _{n}^{P} :G \rightarrow \mathbb{R}^{n}$ 建立的嵌入范式构成了一类新的图核的基础。通过计算结果向量空间中两个图映射的标准点积，可以基于图嵌入定义一个有效的图核 $\kappa$ 。在形式上,

$\kappa_{\left \langle \right \rangle}(g_1,g_2) = \left \langle \varphi _{n}^{P}(g_1), \varphi _{n}^{P}(g_2)\right \rangle$

请注意，这种方法非常类似于[88]中描述的经验核映射，其中将一般相似性度量转换为核函数。当然，不仅可以使用标准的点积，还可以使用为向量定义的任何有效的核函数。例如一个RBF核函数

$\kappa_{RBF} (g_1,g_2) = \mathrm{exp}\left ( -\gamma||\varphi _{n}^{P}(g_1)- \varphi _{n}^{P}(g_2) ||^{2}\right )$

其中， $\gamma>0$ 以应用于图形地图。

选择 $n$ 个原型 $P= \left \{ p_1,\cdots,p_n \right \}$ 是一个关键问题，因为不仅原型 $p_i \in P$ 本身，而且它们的数量 $n$ 也会影响最终的图映射 $\varphi _{n}^{P}(\cdot)$ ，从而影响相应模式识别算法的性能。一个不错的选择 $n$ 个原型似乎至关重要对于嵌入向量空间中分类或聚类算法的成功。第一个非常简单的想法可能是使用 $\tau$ 中所有可用的训练图作为原型。然而，这种简单的方法出现了两个严重的缺点。首先，得到的向量空间的维数等于训练集 $\tau$ 的大小 $N$ 。因此，如果训练集很大，特征向量的维数就会很高，这可能会导致过拟合效果，影响计算效率。其次，在训练集 $\tau$ 中最可能存在类似的原型和离群图。因此，冗余的、有噪声的或不相关的信息将被捕获在图映射中，这反过来可能会损害底层算法的性能

图嵌入的原型选择已经在各种论文中得到了解决[62,64,66,68]。例如，在[62]中，讨论了许多原型选择方法。这些选择策略使用了一些基于原始图域潜在差异性的启发式方法。这些方法的基本思想是从 $\tau$ 中选择原型，这些原型反映了训练集 $\tau$ 的分布，或者以最好的方式覆盖了 $\tau$ 的预定义区域

这种启发式原型选择策略的一个严重缺点是嵌入空间的维数必须由用户确定。换句话说，某一原型选择算法所要选择的原型数量，必须通过目标算法在验证集上进行实验定义。为了克服这一限制，在[68]中，对图嵌入任务采用了各种原型约简方案[3]。与启发式原型选择策略相比，在这些过程中，原型的数量 $n$ ，即向量空间的最终维度，是由算法过程定义的。

另一个解决问题的噪声和冗余向量太高的维数的问题，是由以下程序提供的。该方法不是预先选择原型，而是先进行嵌入，然后将原型选择问题简化为特征子集选择问题。也就是说，对于图嵌入，训练集中所有可用的元素都被用作原型，即我们定义 $P = \tau$ 。接下来，大量不同的特征选择策略[23,36,39]可以应用于得到的大规模向量，消除冗余和噪声，找到好的特征，并降低维数。例如，在[66]中，主成分分析（PCA）[39]和Fisher线性判别分析（LDA）[23]被应用于向量空间嵌入图。在[64]中，使用核主成分分析[76]进行特征变换，而不是传统的PCA

无论原型选择任务实际采用的策略如何，实验表明[62]中提出的通用图嵌入过程具有很大的潜力。它在对图分类和聚类问题各个方面的表现进行了评估，并与包括各种图核在内的替代方法进行了比较[62-66]。实验评估中使用的数据集是公开的。

七.结论

由于图能够同时表示实体的属性和二元关系，人们对智能信息处理中基于图的对象表示越来越感兴趣。例如，在生物信息学和化学信息学领域，基于图的表示已被广泛使用[5,48]。图的另一个研究领域是网络内容挖掘[74]。图像分类是一个进一步的研究领域，基于图的表示引起了人们的关注[31]。最后，我们想提一下计算机网络分析，其中图形已被用于检测网络异常并预测异常事件[9]。

在许多应用领域中，相似或不相似的概念是一个重要问题。在使用图作为表示形式的情况下，已经提出了各种评估图的接近性（即相似或不相似）的方法[15]。评估两个图的相似度的过程通常被称为图匹配。图匹配已经成功地应用于模式识别、计算机视觉、机器学习、数据挖掘和相关领域的各种问题。

不精确方法，有时也被称为容错方法，其特点是在图的结构和标签方面处理错误或不对应部分的能力。因此，为了使两个图正匹配，它们根本不需要完全相同，而只需相似即可。图相似度的概念取决于要应用的容错匹配方法

在这一章中，我们给出了精确和不精确图匹配的概述。重点是基本概念和两个最近的应用。在第一个应用中，展示了如何扩展子图同构的概念，从而建立了一个强大而灵活的信息检索框架。该框架可用于通过查询图从大型数据库图中检索信息。在进一步的应用显示了图形如何可以嵌入到向量空间中，通过从图形编辑距离或一些其他的不相似度度量派生的不相似度。这种图嵌入的关键好处是，它可以立即使用最初为向量对象描述开发的所有算法工具