频繁模式(Frequent Pattern)是频繁出现在数据集中的模式(如项集,子序列和子结构)。频繁模式一般可以用关联规则表示如何判断模式是否频繁,有两个基本的度量:
支持度(support):该模式在所有被考察的对象中的占比,表示了该模式(规则)的有用性;
置信度(cofidence):由规则的前因推出后果的可信度,表示了规则的确定性;
设规则为A->B,则支持度和置信度可以表示如下:
support(A->B) = P(AUB)
confidence(A->B) = P(A|B)
根据上面的定义,可以得出挖掘关联规则(A->B)的问题可以归结为挖掘频繁项集(因为这里的概率运算都可以用满足条件的项的出现次数和总个数的比表示):
1. 找出所有的频繁项集;
2. 有频繁项集产生强关联规则;
将可以看到,第一步的开销远大于第二步,所以性能将由第一步决定。

本文介绍了频繁模式挖掘的基本概念,包括支持度和置信度,以及Apriori算法和FP-Growth算法的工作原理。Apriori算法采用逐层搜索的迭代方法,通过候选产生和剪枝步骤找到频繁项集。FP-Growth则通过构建FP树和条件模式基,以分治策略减少数据库扫描次数。这两个算法在数据挖掘领域有着广泛应用。
最低0.47元/天 解锁文章
1223

被折叠的 条评论
为什么被折叠?



