关联规则挖掘查询的增量细化:原理与应用
1. 关联规则提取与规则集生成
在关联规则挖掘中,规则的提取需考虑支持度和置信度阈值。例如,在一个示例查询中,支持度阈值设为 0.2,置信度阈值设为 0.3,若规则不满足这些阈值,就会被舍弃。最终生成的规则集如下:
| 规则 | 支持度(s) | 置信度(c) |
| — | — | — |
| {hiking boots} -> {col shirts} | 0.33 | 1 |
| {jackets} -> {col shirts} | 0.33 | 0.5 |
| {hiking boots, jackets} -> {col shirts} | 0.33 | 1 |
| {brown boots} -> {col shirts} | 0.66 | 1 |
同时,需要注意重言式规则的问题。在没有聚类的情况下,如果规则的主体和头部不分离,规则就是重言式的,例如 {brown boots, col shirts} -> {col shirts}。而当指定聚类时,只有当规则的主体和头部从同一聚类中提取时,规则才是重言式的。
2. 挖掘查询的性质与规则集关系
挖掘查询用于从数据库中提取关联规则,这些查询可编译成一组复杂的查询以获取相关信息。由于挖掘查询结构复杂,很难应用已知技术来检测查询之间的有趣关系,不过可以定义几种不同的关系,主要包括等价、包含和支配关系。
- 等价关系 :两个挖掘查询 M1 和 M2 等价(M1 ≡ M2),意味着对于所有源数据实例,它们输出的规则集 R1 和
超级会员免费看
订阅专栏 解锁全文
688

被折叠的 条评论
为什么被折叠?



