长模式挖掘与有趣模式探索
在当今大数据时代,长模式挖掘在生物信息学、社交网络分析、软件工程和商业智能等众多领域的重要性日益凸显。然而,传统挖掘框架往往需要先生成大量较小的模式,这使得长模式挖掘成为一项具有挑战性的任务。接下来,我们将介绍几种长模式挖掘的算法以及有趣模式挖掘的相关内容。
1. SpiderMine算法
SpiderMine算法是一种用于挖掘图中长模式的算法。给定一个图 $G$、误差界限 $\epsilon$、直径上限 $D_{max}$、支持阈值 $\sigma$ 和 $K$,SpiderMine 以至少 $1 - \epsilon$ 的概率返回图 $G$ 中前 $K$ 个最大子图的集合 $S$,使得对于集合 $S$ 中的每个子图 $P$,都有 $|P_{sup}| \geq \sigma$ 且 $diam(P) \leq D_{max}$。
基于蜘蛛的算法能够有效恢复长模式的原因主要有两点:
- 蜘蛛减少了恢复长模式时的组合复杂性。
- 蜘蛛最小化了图同构检查的高昂成本。
2. Pattern-Fusion算法
Piece-wise模式合并在一定程度上可以加速长模式的发现,但 Pattern-Fusion 算法提出了更激进的解决方案。该算法旨在高效地找到所有大型频繁模式(也称为巨型模式)集合的良好近似。
2.1 算法特点
- 有界广度遍历 :Pattern-Fusion 以有界广度的方式遍历树,总是推动一个有界大小的候选池前沿,避免了指数级搜索空间的问题。
- 识别捷径 <
超级会员免费看
订阅专栏 解锁全文
1694

被折叠的 条评论
为什么被折叠?



