序列与时空模式挖掘算法综述
在数据挖掘领域,序列模式挖掘和时空模式挖掘是两个重要的研究方向。序列模式挖掘旨在从序列数据中发现频繁出现的模式,而时空模式挖掘则专注于从时空数据中提取有价值的信息。下面将详细介绍这两种模式挖掘的相关算法和方法。
1. 序列模式挖掘算法
序列模式挖掘有多种算法,可分为增量方法、混合方法、近似方法、Top - k 闭序列模式挖掘和频繁情节挖掘等。
1.1 增量方法
许多现实生活中的序列数据库是逐步增长的,为了避免每次数据库更新都从头开始挖掘,开发了增量算法。
- ISM 算法 :基于 SPADE 算法,目标是最小化处理增量更新时的 I/O 和计算需求。该算法使用高效的内存管理方案对数据库进行索引,并创建增量序列格(ISL),包含原数据库中的所有频繁序列(FS)和负边界(NB)中的所有序列。算法分为两个阶段:
- 阶段 1 :更新 NB 和 FS 中元素的支持度,从频繁序列集中修剪掉更新后变得不频繁的序列,扫描一次数据库即可更新格和负边界。
- 阶段 2 :在阶段 1 的基础上向 NB 和 FS 中添加新元素。
- ISE 算法 :使用候选生成 - 测试方法,在向原数据库添加新事务和新客户时计算更新数据库中的频繁序列。为了最小化计算成本,该算法重用旧频繁序列的最小信息(即频繁序列的支持度)。为了找到所有新的频繁序列,考虑了三种类型的频繁序列:
- 原数据库中嵌入的序列可能因增量数据库的支持而变得频繁。
- 原数据库中未出现的新
超级会员免费看
订阅专栏 解锁全文
2718

被折叠的 条评论
为什么被折叠?



