基于哈希方法的Apriori图挖掘算法解析
1. 引言
近年来,图数据频繁子图挖掘,即从图数据中发现频繁出现的子图模式,因其在化学信息学和生物信息学等广泛领域的应用,吸引了众多研究关注。该挖掘的核心是子图同构测试,这是一个NP完全问题。
早期的研究,如SUBDUE和GBI,采用贪心搜索来避免子图同构问题的高复杂度,但只能得到不完整的特征子图集合。而近期的图挖掘算法在给定最小支持度阈值的情况下,能够挖掘出完整的频繁子图集合,大致可分为两类:
- 第一类 :采用与Apriori相同的逐层扩展方式来枚举频繁子图,代表算法有AGM和FSG。AGM通过顶点增长策略找出所有频繁诱导子图;FSG基于边增长策略找出所有频繁连通子图,且声称运行速度比AGM快。
- 第二类 :使用深度优先搜索来寻找候选频繁子图,典型算法是gSpan,据报道其在计算时间上优于AGM和FSG。不过,专注于挖掘频繁连通子图的AGM变体AcGM,被认为优于FSG,与gSpan相当。
在Apriori挖掘频繁项集时,构建频繁项集候选集的启发式方法对频繁模式挖掘算法的性能至关重要。为解决图挖掘中候选集生成的高复杂度问题,本文提出将基于哈希的方法与事务标识符(TID)列表相结合,应用于AGM算法,以在检查向下闭合属性之前过滤生成的邻接矩阵。
2. 图和问题定义
- 标记图 :由顶点集、边集、顶点标记集和边标记集组成。若图是无向的,边的两个方向都属于边集,顶点数量称为图的大小。若所有顶点和边都有相同的标记,则为未标记图。