17、数据流中基于日历的模式挖掘探索

最新推荐文章于 2025-10-04 14:41:23 发布

珊珊333333

最新推荐文章于 2025-10-04 14:41:23 发布

阅读量23

点赞数

CC 4.0 BY-SA版权

分类专栏：复杂数据仓库与高级检索创新文章标签：数据流挖掘日历模式频繁项集

本文链接：https://blog.youkuaiyun.com/css33/article/details/150600088

复杂数据仓库与高级检索创新专栏收录该内容

19 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据流中基于日历的模式挖掘探索

1. 引言

基于日历的模式挖掘旨在识别特定日历分区上的模式，例如每个星期一、每月的第一个工作日、每个假期等。在数据流场景中，为基于日历的分区提供灵活的挖掘能力具有挑战性，因为感兴趣的日历分区事先未知，且在每个时间点只有详细数据的一个子集可用。

2. 问题陈述

设 D 是由数据流提供的事务数据集，Χ 是一组临时的基于日历的约束，T 是 D 中满足 Χ 的事务子集。项集 I 在 T 上的频率是 T 中包含 I 的事务数量，I 的支持度是频率除以 T 中的事务总数。给定最小支持度 σ，基于日历的频繁项集是指在事务集 T 上支持度 ≥ σ 的项集。

3. 相关工作

相关工作主要分为三个主题：
- 基于日历的挖掘 ：如 Özden 等人（1998）提出的循环关联规则，但不处理多个时间间隔粒度；Ramaswamy 等人（1998）引入日历代数，但用户需有先验知识；Li 等人（2001）尝试通过挖掘日历来克服此问题，但这些方法都要求事务在挖掘任务期间可用，无法应用于数据流。
- 流挖掘 ：数据挖掘主要集中在流数据分类和聚类，近期开始关注频繁计数挖掘。如 Demaine 等人（2002）和 Karp 等人（2003）开发的算法，Manku 和 Motwani（2002）提出的 Lossy Counting 算法，但这些算法缺乏灵活性。Giannella 等人（2003）提出的 FP - Stream 模型虽能处理多时间粒度，但缺乏统一分区，无法进行基于日历的模式分析。
- 模式存储和管理 ：

会员秒杀 ¥9.9 重磅福利

超级会员免费看