85、图数据挖掘：聚类与分类技术解析-优快云博客

图数据挖掘：聚类与分类技术解析

1. 频繁子图生成方法

在图数据挖掘中，频繁子图的生成是一个重要的环节，主要有基于节点的连接增长和基于边的连接增长两种方式。

1.1 基于节点的连接增长

基于节点的连接增长中，$F_k$ 中的频繁子图大小指的是其中节点的数量 $k$。$F_1$ 中的单例图只包含一个节点，这些节点标签至少出现在图数据库 $G$ 中的 minsup 个图中。当 $F_k$ 中的两个图进行连接时，这两个图之间必须存在一个具有 $(k - 1)$ 个节点的匹配子图，这个匹配子图也被称为核心。当两个具有 $(k - 1)$ 个公共节点的 $k$ - 子图连接以创建一个具有 $(k + 1)$ 个节点的候选子图时，会出现一个模糊问题，即两个不匹配节点之间是否存在边。因此，根据这两个非公共节点之间是否存在边，会生成两种可能的图。如果边带有标签，可能的连接数量会更多，因为每个可能的边标签都必须与新创建的边相关联，这将导致更多的候选子图。此外，如果两个频繁子图之间存在大小为 $(k - 1)$ 的同构匹配，可能需要为每个这样的映射生成候选子图。所以，为了生成候选子图，需要找出一对图之间所有可能的 $(k - 1)$ 个公共子图。在频繁子图发现中，候选模式数量的爆炸通常比频繁模式发现更为显著。

1.2 基于边的连接增长

基于边的连接增长中，$F_k$ 中的频繁子图大小指的是其中边的数量 $k$。$F_1$ 中的单例图包含一条边，这些边对应于数据库 $G$ 中至少 minsup 个图中特定节点标签之间的边。为了使 $F_k$ 中的两个图进行连接，这两个图中需要存在一个具有 $(k - 1)$ 条边的匹配子图，生成的候选子图将恰好包含 $(