FP-Growth
本文详细介绍FP-Growth构造FP-tree和找频繁项集(笔者研究方向确认为关联规则,作为初学者,若本笔记有错误,还望大家留言指出)
已知强关联规则如下表所示
TID | Items |
---|---|
0 | a,b |
1 | c,d |
2 | a,c,d,e |
3 | a,d,e |
4 | a,b,c |
5 | a,b,c,d |
假设置信度为70%,支持度为50%
则最小支持度为:50%*6(6为集数个数)=3(表示Items中的元素满足≥3才为频繁项集)
FP-growth构造FP-tree时需要进行两次处理:
首先进行分类,求出F-list
我们先看表格,遍历一次数据集,统计每个元素出现的次数
a:5(出现5次)
b:3
c:4
d:4
e:2
然后把出现次数较小的滤掉(最小支持度3,将出现次数小于3的元素滤除)
再进行排序,将频率高的放于首位
F-l |