负关联规则与约束模式挖掘技术解析
负关联规则挖掘
负关联规则挖掘是数据挖掘领域中一个有趣且具有挑战性的问题。在挖掘过程中,需要计算规则的 pF 值来判断其是否显著。具体操作是将项目在枚举树中按频率升序排列,并采用广度优先的方式遍历树。这样做的好处是先检查更通用的规则,再检查其特殊规则,有可能在不检查的情况下修剪掉冗余的特殊规则。
如果任务是搜索前 K 条规则,当找到具有更低 pF 值的新第 K 条规则时,需要不断更新 pF 值的阈值。不过,整个搜索空间的大小为 |P(I)|,其中 P(I) 是 I 的幂集,它会随着属性大小呈指数级增长。为了减少搜索空间,可充分利用 pF 值的特性,通过引入 pF 值度量的三个下界来进行基本的分支限界搜索,从而修剪掉一些不重要的规则,无需进一步检查。此外,还引入了另外两种修剪策略(最小性修剪和哲人石原则修剪)来加速搜索。
关联分类器是一种使用数据中发现的关联规则进行预测的分类模型。训练数据会被转换为事务,并从这些事务中发现受限的关联规则。这些约束将频繁项集限制为包含类标签的项集,并将规则限制为以类标签作为结果的规则。在修剪掉嘈杂和冗余的规则后,剩余的规则即分类规则,将被用作学习到的分类模型。负关联规则已被用于关联分类器,并且在训练和分类过程中使用负关联规则时,分类器的性能得到了提升。生成和使用的负关联规则除了正规则外,还有 ¬X ⇒Y(如果特征 X 不存在,则为类 Y)或 X ⇒¬Y(如果特征 X 存在,则不能为类 Y)的形式,其中 |Y| = 1 且 Y 是类标签。
在选择挖掘负关联规则的算法时,用户应根据具体应用来选择最有用的算法。如果有分类法可用或替代规则有用,某些特定算法是不错的选择;如果用户对项集对之间的所有负关联感兴趣,则应
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



