长模式挖掘算法:从广度优先到模式合并
1. 广度优先与深度优先方法
1.1 广度优先方法
在图挖掘中,像 AGM 和 FSG 这样的典型基于 Apriori 的频繁图挖掘算法采用广度优先方法。AGM 通过连接两个大小为 k 的图(前提是它们共享相同大小为 k - 1 的子图)来生成大小为 k + 1 的新频繁图模式候选,这里的大小由顶点数量衡量。FSG 则采用基于边的候选生成方案。
广度优先方法的优点在于挖掘结果的完整性以及由于 Apriori 风格的模式连接而使格节点访问次数最少。然而,该方法在探索下一级更大的模式之前会先穷尽当前级别的所有模式候选,这使得找到长模式变得特别困难。更糟糕的是,中等大小的潜在模式数量呈指数级增长,可能导致挖掘算法陷入困境,在耗尽系统内存之前无法找到任何长模式。
1.2 深度优先方法
深度优先方法则不同,它在探索更大的模式之前不会枚举所有大小为 k 的模式候选,而是尽可能地扩展一个模式,直到不满足频率阈值为止,采用深度优先的方式遍历模式格。
深度优先方法具有以下优点:
- 搜索空间剪枝更有效 :最大模式挖掘算法依赖“前瞻”技术,如果从枚举节点的子树中可能生成的最长模式是已找到的频繁模式的子集,则会修剪该子树。当在探索过程中更早地找到长模式或最大模式时,剪枝效果最佳。
- 更易发现长模式 :避免被大量中等大小的模式困住,从而更有可能发现长模式。
- 内存利用更高效 :深度优先探索策略通过使用投影数据库,更好地促进了对枚举树高层计数工作的内存高效
超级会员免费看
订阅专栏 解锁全文
4

被折叠的 条评论
为什么被折叠?



