关联规则的高效过滤与多数分类算法研究
1. 关联规则过滤结果
在关联规则挖掘中,过滤算法起着至关重要的作用,它能够有效筛选出真正有价值的规则。下面我们将分别探讨在模拟数据集和真实数据集上的过滤结果。
1.1 模拟数据集
在模拟数据集的规则识别中,我们仅采用了 Apriori 算法,设定最小支持度阈值为 40 条记录(总记录数为 1000 条)。在此支持度下,Apriori 算法生成了 500,000 到 1,000,000 条关联规则,但实际上只有一条规则具有预测性。
我们深入研究了使用不同 p 值阈值时剩余的唯一关联规则数量。从图 1 的对数 - 对数图中可以清晰地看到,随着 p 值阈值的降低,有趣规则的数量急剧减少。这表明当 p 值阈值设置得足够高时,修剪操作能够显著减少报告的模式数量,从而有效排除大量无意义的规则。
我们还关注了测试的敏感性,即修剪后真正模式被报告的频率。考虑了模式大小(np)从 {1,2,3,4} 和预测优势(op)从 {1.5, 2, 3, 4} 的不同组合。对于每一对可能的 (np, op),我们使用模拟器分布生成了十个表,进行频繁模式搜索(最小支持度为 40),并使用算法 1 对结果集进行修剪。
从图 2 中可以看出,当模式较短且优势较高时,它们更具显著性,并且更一致地被报告。例如,优势为 1.5 的模式,只有在模式大小较短(大小为 2)时才偶尔被报告,其他情况下几乎不会被报告,即使 p 值阈值设置为最宽松的 0.01。这是因为这些规则的优势较低且相对出现频率较低,偶尔的显著发现可能是由于抽样变化导致的。而大小为 3 或 4 且优势为 1.5 的模式,由于支持度太低,即使在 p = 0.
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



