数据挖掘与生物识别技术的创新探索
一、频繁模式挖掘优化
1.1 CFIM - P 算法
CFIM - P 算法用于挖掘闭频繁项集以找到闭频繁模式,采用子项集剪枝策略。其具体步骤如下:
CFIM - P (FP - tree, min - sup)
for each frequent single - itemset
construct conditional pattern bases, b = {b1, b2, b3, …, bn}
for each bi (where i = 1, 2, …, n)
if bi ≥ min - sup and support - count(bi) > support - count(bj), for i > j
insert bi to a set of frequent patterns
该算法利用闭频繁项集挖掘的子项集剪枝策略,若频繁项集 X 是已找到的闭项集 Y 的真子集,且 SupportCount(X) = SupportCount(Y),则 X 及其在集合枚举树中的所有后代都不是频繁闭项集,可进行剪枝。例如,参考相关表格和图,闭频繁模式为 {I2, I1: 3} 和 {I2, I1, I5: 2},冗余模式如 {I2, I1: 2}、{I2, I5:2}、{I1, I5:2} 被去除,得到更精炼的模式。
1.2 流数据挖掘优化的理论基础
流数据挖掘的主要挑战包括设计更快的挖掘算法以及及时检测变化的概念和数据分布
超级会员免费看
订阅专栏 解锁全文
864

被折叠的 条评论
为什么被折叠?



