5、关联规则的高效过滤与多数分类算法研究-优快云博客

本文链接：https://blog.youkuaiyun.com/nft7creator/article/details/149375271

关联规则的高效过滤与多数分类算法研究

1. 关联规则过滤结果

在关联规则挖掘中，过滤算法起着至关重要的作用，它能够有效筛选出真正有价值的规则。下面我们将分别探讨在模拟数据集和真实数据集上的过滤结果。

1.1 模拟数据集

在模拟数据集的规则识别中，我们仅采用了 Apriori 算法，设定最小支持度阈值为 40 条记录（总记录数为 1000 条）。在此支持度下，Apriori 算法生成了 500,000 到 1,000,000 条关联规则，但实际上只有一条规则具有预测性。

我们深入研究了使用不同 p 值阈值时剩余的唯一关联规则数量。从图 1 的对数 - 对数图中可以清晰地看到，随着 p 值阈值的降低，有趣规则的数量急剧减少。这表明当 p 值阈值设置得足够高时，修剪操作能够显著减少报告的模式数量，从而有效排除大量无意义的规则。

我们还关注了测试的敏感性，即修剪后真正模式被报告的频率。考虑了模式大小（np）从 {1,2,3,4} 和预测优势（op）从 {1.5, 2, 3, 4} 的不同组合。对于每一对可能的 (np, op)，我们使用模拟器分布生成了十个表，进行频繁模式搜索（最小支持度为 40），并使用算法 1 对结果集进行修剪。

从图 2 中可以看出，当模式较短且优势较高时，它们更具显著性，并且更一致地被报告。例如，优势为 1.5 的模式，只有在模式大小较短（大小为 2）时才偶尔被报告，其他情况下几乎不会被报告，即使 p 值阈值设置为最宽松的 0.01。这是因为这些规则的优势较低且相对出现频率较低，偶尔的显著发现可能是由于抽样变化导致的。而大小为 3 或 4 且优势为 1.5 的模式，由于支持度太低，即使在 p = 0.