频繁闭合序列模式挖掘方法解析
1. 候选序列生成及GSP算法问题
在序列模式挖掘中,会根据特定规则生成候选序列。假设两个序列 s1 = s(x1 · · · xm−1xm) 和 s2 = s(x1 · · · xm−1xm+1) ,其中 s 是 s1 和 s2 的最大公共前缀,那么会生成一个长度为 (k + 1) 的候选序列 s(x1 · · · xm−1xmxm+1) 。另一种情况,若 s2 的最后一个元素包含一个项,且 s2 的倒数第二个元素与 s1 的最后一个元素除了按字母顺序在 s1 最后一个元素中排最后的那个项外都相同,例如 s1 = s(x1 · · · xm−1xm) 和 s2 = s(x1 · · · xm−1)y ,则会生成候选序列 s1 = s(x1 · · · xm−1xm)y 。
生成长度为 (k + 1) 的候选序列后,会测试其每个长度为 k 的子序列是否也是长度为 k 的序列模式,只有通过测试的候选序列才会在下一轮与数据库进行匹配计数。
GSP算法虽然受益于Apriori剪枝,但仍会生成大量候选序列。例如,6个长度为1的序列模式会生成51个长度为2的候
超级会员免费看
订阅专栏 解锁全文
817

被折叠的 条评论
为什么被折叠?



