图数据挖掘:聚类与分类技术解析
1. 频繁子图生成方法
在图数据挖掘中,频繁子图的生成是一个重要的环节,主要有基于节点的连接增长和基于边的连接增长两种方式。
1.1 基于节点的连接增长
基于节点的连接增长中,$F_k$ 中的频繁子图大小指的是其中节点的数量 $k$。$F_1$ 中的单例图只包含一个节点,这些节点标签至少出现在图数据库 $G$ 中的 minsup 个图中。当 $F_k$ 中的两个图进行连接时,这两个图之间必须存在一个具有 $(k - 1)$ 个节点的匹配子图,这个匹配子图也被称为核心。当两个具有 $(k - 1)$ 个公共节点的 $k$ - 子图连接以创建一个具有 $(k + 1)$ 个节点的候选子图时,会出现一个模糊问题,即两个不匹配节点之间是否存在边。因此,根据这两个非公共节点之间是否存在边,会生成两种可能的图。如果边带有标签,可能的连接数量会更多,因为每个可能的边标签都必须与新创建的边相关联,这将导致更多的候选子图。此外,如果两个频繁子图之间存在大小为 $(k - 1)$ 的同构匹配,可能需要为每个这样的映射生成候选子图。所以,为了生成候选子图,需要找出一对图之间所有可能的 $(k - 1)$ 个公共子图。在频繁子图发现中,候选模式数量的爆炸通常比频繁模式发现更为显著。
1.2 基于边的连接增长
基于边的连接增长中,$F_k$ 中的频繁子图大小指的是其中边的数量 $k$。$F_1$ 中的单例图包含一条边,这些边对应于数据库 $G$ 中至少 minsup 个图中特定节点标签之间的边。为了使 $F_k$ 中的两个图进行连接,这两个图中需要存在一个具有 $(k - 1)$ 条边的匹配子图,生成的候选子图将恰好包含 $(
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



