负关联规则挖掘:聚焦感兴趣项集
1. 引言
数据挖掘通常被定义为在数据中识别有效、新颖、潜在有用且最终可理解模式的非平凡过程。目前,正关联规则挖掘已解决了数据挖掘中部分有用的问题。随着研究的深入,人们开始探索寻找隐藏模式的其他方法,其中负关联规则是具有低频率和高相关性项集之间的一种隐藏模式。负模式在应用中很重要,它能告诉我们哪些项很少一起出现,但到目前为止,挖掘负关联规则尚未得到足够的关注。
2. 挖掘负关联规则的挑战
挖掘负关联规则与挖掘正关联规则有很大不同,识别负关联规则面临以下新问题:
- 识别感兴趣的低频项集。
- 数据库中涉及的(低频和高频)项集数量呈指数级增长。
- 如何高效地识别数据库中感兴趣的高频和低频项集。
- 构建一个用于衡量数据库中负关联规则的替代模型。
3. 现有算法的局限性
挖掘正、负关联规则都需要高频项集和一些低频项集,但识别高频项集本身就是一个在指数空间中搜索的过程。例如,杂货店的市场篮数据,若有 1000 个项,可能出现的项集数量多达 $2^{1000}$。
著名的 Apriori 算法只处理数据库中的高频项集,但当高频项集数量很大时,会产生巨大的计算开销。为克服这一困难,Han、Pei 和 Yin 提出了基于 FP - 树的频繁模式挖掘模型,Webb 则提出了一种一步挖掘方法,通过 OPUS - 搜索根据项集间的相互关系修剪搜索空间。不过,现有的修剪技术并不适用于发现负关联规则,因为在 OPUS 算法中被修剪掉的一些项集可能对提取负关联规则有用。
4. 聚焦感兴趣项集的必要性
由于数据库中可能的低
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



