OrderSpan:挖掘闭合部分有序模式
1. 模式挖掘背景
在序列数据库中挖掘部分有序模式(po - patterns)与挖掘单个序列中的事件有所不同。此前有多种挖掘算法,但都存在一定局限性:
- Winepi算法 :以Apriori方式使用固定宽度滑动窗口挖掘事件,在处理大型数据库时开销大,且提取的是完整的po - 模式集,模式数量可能很多。
- 部分作者提出的新算法 :采用模式增长范式挖掘闭合事件,但在过程中或后处理步骤需在内存中保留完整的提取模式集来验证闭合性。
- Frecpo算法 :虽性能良好,但只能提取简单序列(无重复项和项集)的模式,限制了其应用。
- Garriga提出的算法 :先使用如CloSpan或BIDE算法提取闭合序列模式,再进行后处理转换为po - 模式,并非直接提取。
而我们提出的方法是使用模式增长方法直接在序列数据库中挖掘闭合po - 模式,能处理重复项和项集序列,在过程中直接进行闭合性检查,且挖掘闭合po - 模式可减少结果集大小而不损失信息,语义更相关。
2. OrderSpan算法
OrderSpan算法旨在应对po - 模式挖掘的挑战:
1. 直接从序列数据库中挖掘po - 模式。
2. 专注于提取闭合po - 模式以减少结果大小。
3. 考虑包含重复项的项集序列。
该算法基于序列的前缀和后缀属性,采用两阶段方法。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



