关联规则元模式的发现与优化
在数据挖掘领域,关联规则挖掘是一项重要的任务,它旨在从数据集中发现不同项目之间的关联关系。然而,要制定一个能产生令人满意规则集的元模式并非易事。本文将深入探讨关联规则元模式的相关特性、属性选择方法以及最小支持度和置信度的确定,帮助用户更好地进行关联规则挖掘。
1. 关联规则集的特性
1.1 规则集的产生
在关联规则挖掘中,我们关注的是单个客户频繁一起购买的商品组合。规则被认为是相关的,需要满足至少 18%的客户适用(最小支持度 s = 0.18),并且其条件概率至少为 50%(最小置信度 c = 0.5)。通过特定的元模式,可以生成如图 1.b 所示的规则集。
1.2 规则集的属性
- 命题 1 :对于应用于数据集 T 的关联规则元模式 p = ,设 gi 是数据集 T 按分组属性 g 划分的组,R 是由 p 提取的关联规则集。则 R 中规则大小的上限是 T 中最大组的基数,即 max r∈R(size(r)) ≤ max(|gi|)。
- 定理 1 :若在表 T 中分组属性 g 和规则属性 m 之间存在函数依赖 g → m,那么将元模式 p 应用于 T 的实例会产生一个空的规则集 R。
- 定理 2 :若在表 T 中 p.g 和 p.m 之间存在函数依赖 m → g,要获得非空规则集 R 的最高最小支持度是 s = 1/G。
2. 优质规则集的质量因素
用户在分析数据集时,需要制定元模
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



