频繁模式挖掘:技术、挑战与应用
1. 传统支持框架下的频繁模式挖掘
传统支持框架旨在确定原始频率大于最小阈值的模式。虽然这是定义频繁模式的简单方法,但该模型具有一种算法上便利的属性,即逐层属性。逐层属性对于频繁模式挖掘在算法上至关重要,因为它使得能够采用自底向上的方法来探索频繁模式空间。也就是说,如果一个模式的任何子集不频繁,那么该模式的超集也不可能频繁。这一关键观察结果几乎被所有高效的频繁模式挖掘算法所采用。
自频繁模式挖掘问题首次提出以来,人们提出了众多算法以提高解决该问题的效率。这个研究领域非常热门,以至于有一个年度研讨会 FIMI 曾专门致力于频繁模式挖掘的实现。现在该网站已成为一个资源库,提供了许多高效的频繁模式挖掘实现。
频繁模式挖掘技术最初采用类似 Apriori 的基于连接的方法。在这些算法中,候选项集按项集大小递增的顺序生成,这种按项集大小递增的生成方式被称为逐层探索。然后将这些项集与底层事务数据库进行比对,保留满足最小支持度约束的频繁项集以进行进一步探索。
后来人们意识到,这些类似 Apriori 的方法可以更系统地通过枚举树进行探索。枚举树为频繁项集挖掘提供了更灵活的框架,因为可以使用多种不同的策略来探索树,如深度优先、广度优先或其他混合策略。广度优先策略的一个特性是可以进行逐层剪枝,而其他策略则无法实现。不过,深度优先搜索等策略在最大模式挖掘方面有其他优势,因为它能较早发现长模式,这些长模式可用于基于向下闭合性对枚举树中已知频繁的大部分进行剪枝。需要指出的是,当挖掘所有频繁模式时,枚举树的探索顺序并不影响探索的候选数量,因为枚举树的大小是固定的。
基于连接的算法总是逐层的,可视为等同于广度优先枚举树探索。早期的频繁模
超级会员免费看
订阅专栏 解锁全文
1280

被折叠的 条评论
为什么被折叠?



