关联规则挖掘:频繁项集搜索与规则挖掘研究
1. 关联规则提取条件
关联规则 $X → Y$ 能够被提取为有效规则需要满足以下条件:
1. $X ∩ Y = ∅$;
2. $p(X ∪ Y) ≥ minsupp$;
3. $p(Y | X) ≥ minconf$(例如 $conf(X → Y) ≥ minconf$);
4. $| \frac{p(X∪Y)}{p(X)p(Y)} - 1| ≥ mininterest$。
这里的阈值,最小支持度($minsupp$)、最小置信度($minconf$)和最小兴趣度($mininterest > 0$)由用户或专家给定。数学概率论和统计学是在许多应用中测量不确定性最古老且最广泛使用的技术,因此也可以应用这些技术来估计关联规则的不确定因素(支持度和置信度)。
2. 搜索频繁项集
识别频繁项集是知识发现和数据挖掘领域面临的最重要问题之一。已经有许多优秀的算法用于在非常大的数据库中提取频繁项集,其中 Apriori 算法是一种著名且广泛使用的挖掘频繁项集的算法。为了提高效率,还构建了该方法的许多变体,如基于哈希的算法和基于 OPUS 的算法。
2.1 Apriori 算法
Apriori 算法的目标是在给定数据库 $D$ 中生成所有频繁项集。以下是该算法的具体步骤:
Algorithm 2.1 FrequentItemsets
begin
Input: D: data set; minsupp: minimum support;
超级会员免费看
订阅专栏 解锁全文
1567

被折叠的 条评论
为什么被折叠?



