关联规则质量度量评估
1. 研究背景与问题提出
在关联规则挖掘中,评估规则质量的方法众多,但以往对平均准确率变化的分析表明,它难以有效区分不同的规则质量度量。我们的目标是提出一种更精细的评估方法,以衡量规则质量度量对预测任务的有用性。
2. 规则质量度量得分的提出
- 确定预测器 :选择了常用的 C5.0 作为预测器。因为 Naïve Bayes 预测器存在不适用性,而基于数值的支持向量机难以与我们所需的分类属性相协调,若要使用需额外离散化,所以暂不考虑。
- 选择规则集 G :
- 从各度量提供的前 N(这里 N = 50)条规则的联合池中选取规则。
- 具体操作步骤如下:
- 为数据集添加一个标记规则例外情况的特征。
- 在扩展后的数据集和原始数据集上分别运行预测器。
- 通过 10 折交叉验证评估各自的准确率。
- 确定准确率的相对提升(即两者准确率的比率)。
- 选取那些能使预测器准确率提升至少 ϵ(ϵ = 0.5%)的规则,构成集合 G。
- 计算得分 :对于每个质量度量,若其前 N 条规则中有 k 条来自集合 G,且这些规则的位置为 a1, …, ak(1 ≤ ai ≤ N),则其得分计算公式为:
[
\frac{1}{Z_D} \
超级会员免费看
订阅专栏 解锁全文
1671

被折叠的 条评论
为什么被折叠?



