4、频繁模式挖掘算法综述

频繁模式挖掘算法综述

1. 引言

在数据挖掘领域,频繁模式挖掘(FPM)是在计算和算法开发方面研究最为深入的问题之一。在过去二十年中,众多算法被提出用于解决频繁模式挖掘及其变体问题,并且对该问题的研究兴趣至今未减。

频繁模式挖掘有不同的框架,最常见的是基于支持度的框架,即找出频率高于给定阈值的项集。不过,这些项集有时可能无法代表项之间有趣的正相关性,因为它们没有对项的绝对频率进行归一化处理。因此,文献中定义了其他有趣性度量方法。本文将聚焦于基于支持度的框架。

对频繁模式挖掘算法的高度关注,主要源于该任务的计算挑战。即使对于中等规模的数据集,FPM的搜索空间也非常庞大,与数据集中事务的长度呈指数关系。这在支持度较低时,自然给项集生成带来了挑战。实际上,在大多数实际场景中,挖掘对应项集的支持度水平受内存和计算约束的限制。所以,能够以高效的空间和时间方式进行分析至关重要。在该领域研究的最初几年,主要工作重点是寻找计算效率更高的FPM算法。

2. 基本概念
  • 事务数据库与项集 :设 $T = {T_1, T_2, \ldots, T_n}$ 为事务数据库,其中每个 $T_i \in T$ 由一组项组成,如 $T_i = {x_1, x_2, x_3, \ldots, x_l}$。集合 $P \subseteq T_i$ 称为项集,项集的大小由其包含的项的数量定义。若项集大小为 $l$,则称为 $l$-项集(或 $l$-模式)。包含项集 $P$ 的事务数量称为 $P$ 的支持度。若项集 $P$ 的支持度至少等于最小阈值,则定义为频繁项集。
    | tid | Items | Sort

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值