序列模式挖掘:带约束与闭序列模式的深入探讨
1. 带约束的序列模式挖掘
在序列模式挖掘中,前缀增长(Prefix-growth)方法在处理约束时展现出独特的优势。尽管前缀单调属性比Apriori属性弱,但由于Prefix-growth采用了不同的挖掘方法,它在性能上仍优于基于Apriori的方法。
1.1 处理棘手的聚合约束
对于平均(avg)和求和(sum)这类棘手的聚合约束,它们既不是反单调的,也不是单调的,甚至不具有前缀单调性。例如,在序列数据库SDB中挖掘满足约束 $C \equiv avg(\alpha) \leq 25$ 的序列模式时,不能直接将该约束应用于PrefixSpan挖掘过程。像 $\alpha = 50$ ,虽然 $avg(\alpha) \nleq 25$ ,但添加更多元素后可能得到 $\alpha’ = 50 10 20 10$ ,使得 $avg(\alpha’) \leq 25$ 。
为了将约束 “$avg(\alpha) \leq v$” 深入应用到Prefix-growth挖掘过程中,可以采取以下步骤:
1. 确定处理顺序 :使用项值升序来确定要处理的投影数据库的顺序。将值小于等于 $v$ 的项称为小项,否则称为大项。
2. 扫描数据库并移除无前景的大项 :在第一次扫描(投影)数据库时,根据以下规则移除序列中无前景的大项:
- 引理2.16(修剪无前景的序列) :对于序列 $\alpha$ ,设小项的实例数为 $n$ ,它们的和为 $s$ 。对于 $\alpha$ 中的任何大项 $
超级会员免费看
订阅专栏 解锁全文
10

被折叠的 条评论
为什么被折叠?



