2、频繁模式挖掘:技术、挑战与应用

频繁模式挖掘:技术、挑战与应用

1. 传统支持框架下的频繁模式挖掘

传统支持框架旨在确定原始频率大于最小阈值的模式。虽然这是定义频繁模式的简单方法,但该模型具有一种算法上便利的属性,即逐层属性。逐层属性对于频繁模式挖掘在算法上至关重要,因为它使得能够采用自底向上的方法来探索频繁模式空间。也就是说,如果一个模式的任何子集不频繁,那么该模式的超集也不可能频繁。这一关键观察结果几乎被所有高效的频繁模式挖掘算法所采用。

自频繁模式挖掘问题首次提出以来,人们提出了众多算法以提高解决该问题的效率。这个研究领域非常热门,以至于有一个年度研讨会 FIMI 曾专门致力于频繁模式挖掘的实现。现在该网站已成为一个资源库,提供了许多高效的频繁模式挖掘实现。

频繁模式挖掘技术最初采用类似 Apriori 的基于连接的方法。在这些算法中,候选项集按项集大小递增的顺序生成,这种按项集大小递增的生成方式被称为逐层探索。然后将这些项集与底层事务数据库进行比对,保留满足最小支持度约束的频繁项集以进行进一步探索。

后来人们意识到,这些类似 Apriori 的方法可以更系统地通过枚举树进行探索。枚举树为频繁项集挖掘提供了更灵活的框架,因为可以使用多种不同的策略来探索树,如深度优先、广度优先或其他混合策略。广度优先策略的一个特性是可以进行逐层剪枝,而其他策略则无法实现。不过,深度优先搜索等策略在最大模式挖掘方面有其他优势,因为它能较早发现长模式,这些长模式可用于基于向下闭合性对枚举树中已知频繁的大部分进行剪枝。需要指出的是,当挖掘所有频繁模式时,枚举树的探索顺序并不影响探索的候选数量,因为枚举树的大小是固定的。

基于连接的算法总是逐层的,可视为等同于广度优先枚举树探索。早期的频繁模

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值