频繁模式挖掘算法综述
1. 投影与相关算法
在某些数据处理步骤中,会对特定位进行操作。例如,对第一阶位进行操作后,相同过程会在第二阶和第三阶位上重复两次。经过三次遍历后,每个桶会包含相应项集的支持计数,项集中的‘0’会被‘*’(表示“不关心”)替代。比如,在一个示例中,事务数量为 27,用桶 *** 表示;只有两个事务包含所有三个项,用桶 111 表示。
基于投影的方法相较于 MaxMiner 算法有显著改进。深度优先方法随后被应用于许多基于树的算法中。以下是一些相关算法的介绍:
|算法名称|特点|
| ---- | ---- |
|MAFIA 算法|与 Depth - Project 方法有相似之处,但使用基于位图的方法进行计数,而非投影事务数据库。当包含项集的事务比例较小时,可使用稀疏表示(如事务标识符列表)。该算法还提出了一些剪枝优化策略,当节点扩展的支持度与其父节点相同时,可修剪该子树。|
|GenMax|和 MAFIA 一样使用垂直表示来加速计数,具体使用 tidlists,并采用了 diffsets 概念和深度优先探索策略,还使用了连续聚焦方法来提高效率。|
2. 频繁闭项集挖掘算法
目前存在多种频繁闭项集挖掘算法,大多数最大和闭模式挖掘算法是基于非最大模式挖掘算法的不同变体,通常会在非最大模式挖掘算法中加入剪枝策略以提高效率。
2.1 Close 算法
该算法在闭项集搜索空间上应用基于 Apriori 的模式生成方法。闭项集格(搜索空间)的使用显著减少了算法的整体搜索空间。其操作是迭代进行的,每次迭代包含三个阶段:
1. 应用闭包函数获取候选闭项集及
超级会员免费看
订阅专栏 解锁全文
8

被折叠的 条评论
为什么被折叠?



