不确定频繁模式挖掘技术解析
在数据挖掘领域,从不确定数据中挖掘频繁模式是一个重要的研究方向。本文将介绍几种常见的不确定频繁模式挖掘算法,包括基于候选生成与测试的方法、基于超链接结构的方法以及基于树结构的方法,并探讨约束不确定频繁模式挖掘。
1. 基于候选生成与测试的不确定频繁模式挖掘
从不确定数据中挖掘频繁模式的一种方法是应用候选生成与测试范式。U - Apriori算法是该范式的一个典型代表,它以逐层广度优先自底向上的方式从不确定数据中挖掘频繁模式。具体步骤如下:
1. 计算所有域项的期望支持度。期望支持度大于等于最小支持度(minsup)的项成为频繁1 - 项集。
2. 重复应用候选生成与测试过程,从频繁k - 项集生成候选(k + 1) - 项集,并测试它们是否为频繁(k + 1) - 项集。
U - Apriori算法依赖于Apriori属性,即频繁模式的所有子集也必须是频繁的,任何非频繁模式的所有超集也是非频繁的。为了提高效率,U - Apriori算法采用了LGS - 修剪策略,包括局部修剪、全局剪枝和单遍修补。该策略从原始概率数据集D中修剪掉存在概率低于用户指定修剪阈值的项,然后从修剪后的数据集DTrim中挖掘频繁模式。
然而,U - Apriori算法仍然存在一些问题:
- 创建DTrim存在开销。
- 只能从DTrim中挖掘部分频繁模式,并且修补过程存在开销。
- 算法效率对低存在概率项的百分比敏感。
- 难以找到合适的用户指定修剪阈值。
为了进一步提高U - Apriori算法的效率,Chui和Kao应用了递减剪枝技术。该技术通过在处理每个事务后逐步估计候选模式
超级会员免费看
订阅专栏 解锁全文
10

被折叠的 条评论
为什么被折叠?



