数据流中基于日历的模式挖掘探索
1. 引言
基于日历的模式挖掘旨在识别特定日历分区上的模式,例如每个星期一、每月的第一个工作日、每个假期等。在数据流场景中,为基于日历的分区提供灵活的挖掘能力具有挑战性,因为感兴趣的日历分区事先未知,且在每个时间点只有详细数据的一个子集可用。
2. 问题陈述
设 D 是由数据流提供的事务数据集,Χ 是一组临时的基于日历的约束,T 是 D 中满足 Χ 的事务子集。项集 I 在 T 上的频率是 T 中包含 I 的事务数量,I 的支持度是频率除以 T 中的事务总数。给定最小支持度 σ,基于日历的频繁项集是指在事务集 T 上支持度 ≥ σ 的项集。
3. 相关工作
相关工作主要分为三个主题:
- 基于日历的挖掘 :如 Özden 等人(1998)提出的循环关联规则,但不处理多个时间间隔粒度;Ramaswamy 等人(1998)引入日历代数,但用户需有先验知识;Li 等人(2001)尝试通过挖掘日历来克服此问题,但这些方法都要求事务在挖掘任务期间可用,无法应用于数据流。
- 流挖掘 :数据挖掘主要集中在流数据分类和聚类,近期开始关注频繁计数挖掘。如 Demaine 等人(2002)和 Karp 等人(2003)开发的算法,Manku 和 Motwani(2002)提出的 Lossy Counting 算法,但这些算法缺乏灵活性。Giannella 等人(2003)提出的 FP - Stream 模型虽能处理多时间粒度,但缺乏统一分区,无法进行基于日历的模式分析。
- 模式存储和管理 :
超级会员免费看
订阅专栏 解锁全文
1101

被折叠的 条评论
为什么被折叠?



