关联规则的高效统计剪枝
1. 引言
关联挖掘是在离散表格数据中全面识别频繁模式的过程,通常需要设定一定的最小支持度,即模式在数据中出现的频率。发现频繁模式后,会构建关联规则,将模式描述为特定属性值之间的预测关系。然而,关联挖掘是一种穷举方法,可能会生成大量模式,超出用户合理评估的范围,并且很多模式可能是冗余的。因此,开发有效的关联规则剪枝系统非常重要。
过滤关联挖掘结果的方法有多种分类方式。从客观性来看,可分为客观过滤和主观过滤,我们的目标是设计一种客观的、纯计算的过滤器,以实现跨学科通用性并避免主观评估带来的偏差。从过滤方式来看,规则过滤可以逐规则进行,也可以采用增量方式,将被认为有趣的规则逐步添加到规则列表集或概率模型中。我们重点关注逐规则的方法,这种方法适用于密集数据表生成大量关联规则的应用场景,且独立过滤规则便于进行批量并行化处理,实现线性加速。
2. 背景
在统计学中,一个数据集里并非每个显著特征都有趣,但有趣的特征必须具有统计显著性。非显著结果是那些可以解释为随机效应的特征,不值得进一步研究。例如,一个能 100% 准确预测客户行为的关联规则,如果只涵盖大型数据库中的 2 个客户,那么它就不具有显著性,也不会有趣。这种有趣性有时被称为规则的可靠性。
在许多关联规则过滤方法中,显著性或可靠性的衡量大多是临时的,源于布尔逻辑理论而非统计理论。布尔方法通常将规则的支持度和置信度结合起来,试图同时最大化两者,隐含着对可靠性的最大化。相关的去除冗余关联规则的逻辑机制使用了闭项集的概念,基于闭包的方法在无噪声问题中最为有效,但在噪声数据中,根据闭包属性可视为冗余的规则较少,其有效性受到限制。对于这类噪声数据集,其他作者使用了统计技术,重
超级会员免费看
订阅专栏 解锁全文
1158

被折叠的 条评论
为什么被折叠?



