5、关联规则的高效过滤与多数分类算法研究

关联规则的高效过滤与多数分类算法研究

1. 关联规则过滤结果

在关联规则挖掘中,过滤算法起着至关重要的作用,它能够有效筛选出真正有价值的规则。下面我们将分别探讨在模拟数据集和真实数据集上的过滤结果。

1.1 模拟数据集

在模拟数据集的规则识别中,我们仅采用了 Apriori 算法,设定最小支持度阈值为 40 条记录(总记录数为 1000 条)。在此支持度下,Apriori 算法生成了 500,000 到 1,000,000 条关联规则,但实际上只有一条规则具有预测性。

我们深入研究了使用不同 p 值阈值时剩余的唯一关联规则数量。从图 1 的对数 - 对数图中可以清晰地看到,随着 p 值阈值的降低,有趣规则的数量急剧减少。这表明当 p 值阈值设置得足够高时,修剪操作能够显著减少报告的模式数量,从而有效排除大量无意义的规则。

我们还关注了测试的敏感性,即修剪后真正模式被报告的频率。考虑了模式大小(np)从 {1,2,3,4} 和预测优势(op)从 {1.5, 2, 3, 4} 的不同组合。对于每一对可能的 (np, op),我们使用模拟器分布生成了十个表,进行频繁模式搜索(最小支持度为 40),并使用算法 1 对结果集进行修剪。

从图 2 中可以看出,当模式较短且优势较高时,它们更具显著性,并且更一致地被报告。例如,优势为 1.5 的模式,只有在模式大小较短(大小为 2)时才偶尔被报告,其他情况下几乎不会被报告,即使 p 值阈值设置为最宽松的 0.01。这是因为这些规则的优势较低且相对出现频率较低,偶尔的显著发现可能是由于抽样变化导致的。而大小为 3 或 4 且优势为 1.5 的模式,由于支持度太低,即使在 p = 0.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值