频繁模式挖掘算法综述
1. 引言
在数据挖掘领域,频繁模式挖掘(FPM)是在计算和算法开发方面研究最为深入的问题之一。在过去二十年中,众多算法被提出用于解决频繁模式挖掘及其变体问题,并且对该问题的研究兴趣至今未减。
频繁模式挖掘有不同的框架,最常见的是基于支持度的框架,即找出频率高于给定阈值的项集。不过,这些项集有时可能无法代表项之间有趣的正相关性,因为它们没有对项的绝对频率进行归一化处理。因此,文献中定义了其他有趣性度量方法。本文将聚焦于基于支持度的框架。
对频繁模式挖掘算法的高度关注,主要源于该任务的计算挑战。即使对于中等规模的数据集,FPM的搜索空间也非常庞大,与数据集中事务的长度呈指数关系。这在支持度较低时,自然给项集生成带来了挑战。实际上,在大多数实际场景中,挖掘对应项集的支持度水平受内存和计算约束的限制。所以,能够以高效的空间和时间方式进行分析至关重要。在该领域研究的最初几年,主要工作重点是寻找计算效率更高的FPM算法。
2. 基本概念
-
事务数据库与项集 :设 $T = {T_1, T_2, \ldots, T_n}$ 为事务数据库,其中每个 $T_i \in T$ 由一组项组成,如 $T_i = {x_1, x_2, x_3, \ldots, x_l}$。集合 $P \subseteq T_i$ 称为项集,项集的大小由其包含的项的数量定义。若项集大小为 $l$,则称为 $l$-项集(或 $l$-模式)。包含项集 $P$ 的事务数量称为 $P$ 的支持度。若项集 $P$ 的支持度至少等于最小阈值,则定义为频繁项集。
| tid | Items | Sort
超级会员免费看
订阅专栏 解锁全文
8

被折叠的 条评论
为什么被折叠?



