19、负关联规则与约束模式挖掘技术解析-优快云博客

本文链接：https://blog.youkuaiyun.com/grafana6viz/article/details/154889708

负关联规则与约束模式挖掘技术解析

负关联规则挖掘

负关联规则挖掘是数据挖掘领域中一个有趣且具有挑战性的问题。在挖掘过程中，需要计算规则的 pF 值来判断其是否显著。具体操作是将项目在枚举树中按频率升序排列，并采用广度优先的方式遍历树。这样做的好处是先检查更通用的规则，再检查其特殊规则，有可能在不检查的情况下修剪掉冗余的特殊规则。

如果任务是搜索前 K 条规则，当找到具有更低 pF 值的新第 K 条规则时，需要不断更新 pF 值的阈值。不过，整个搜索空间的大小为 |P(I)|，其中 P(I) 是 I 的幂集，它会随着属性大小呈指数级增长。为了减少搜索空间，可充分利用 pF 值的特性，通过引入 pF 值度量的三个下界来进行基本的分支限界搜索，从而修剪掉一些不重要的规则，无需进一步检查。此外，还引入了另外两种修剪策略（最小性修剪和哲人石原则修剪）来加速搜索。

关联分类器是一种使用数据中发现的关联规则进行预测的分类模型。训练数据会被转换为事务，并从这些事务中发现受限的关联规则。这些约束将频繁项集限制为包含类标签的项集，并将规则限制为以类标签作为结果的规则。在修剪掉嘈杂和冗余的规则后，剩余的规则即分类规则，将被用作学习到的分类模型。负关联规则已被用于关联分类器，并且在训练和分类过程中使用负关联规则时，分类器的性能得到了提升。生成和使用的负关联规则除了正规则外，还有 ¬X ⇒Y（如果特征 X 不存在，则为类 Y）或 X ⇒¬Y（如果特征 X 存在，则不能为类 Y）的形式，其中 |Y| = 1 且 Y 是类标签。

在选择挖掘负关联规则的算法时，用户应根据具体应用来选择最有用的算法。如果有分类法可用或替代规则有用，某些特定算法是不错的选择；如果用户对项集对之间的所有负关联感兴趣，则应