Fpgrowth算法的学习笔记
一、“征兵”-----过来一批新的数据。
例如
二、新兵按“出勤”多少排,出勤低于阀值(这里设2)的“杀掉”。
所剩下的新兵(按出勤高低排)是:
1、
2、出去出勤低的士兵后的结果
3、按1的标准序列重排。
三、将这些排好的序列加入到“兵营”(树结构中)。
1.降序进自己的“房间”
2、保持“同姓士兵的联系”(c连接C a连接a ……)
四、重点来了,开始找频繁序列了。
从上面序列1从上往下(1)遍历。每遍历一个元素时,横向进入tree。从左向右(2)遍历兄弟节点。每遍历一个兄弟节点时,从下往上(3)遍历找出字符串,如果这个字符串的出现次数大于阀值就是频繁序列,否则不是。
遍历c: 找到 c:4
遍历a: 找到 ca:3
遍历f: 找到 caf:3
遍历e: cafe :1<2(去除掉) e:1<2(去除掉)