关联规则挖掘:多层次、多维与定量规则探索
1. 高效挖掘闭频繁项集
当当前项集 Sc 能被另一个已找到的闭频繁项集 Sa 包含时,满足以下三个条件:
- Sc 和 Sa 具有相同的支持度。
- Sc 的长度小于 Sa 的长度。
- Sc 中的所有项都包含在 Sa 中。
基于此特性,可以构建一个两级哈希索引结构来快速访问模式树:
- 第一级使用 Sc 中最后一项的标识符作为哈希键(因为该标识符必定在 Sc 的分支内)。
- 第二级使用 Sc 的支持度作为哈希键(因为 Sc 和 Sa 支持度相同)。
这能显著加速子集检查过程。
2. 挖掘多层次关联规则
在许多应用中,由于低抽象级别数据的稀疏性,很难在这些级别找到数据项之间的强关联。而在高抽象级别发现的强关联可能代表常识性知识,且不同用户对常识的认知可能不同。因此,数据挖掘系统应具备在多个抽象级别挖掘关联规则的能力,并能灵活遍历不同抽象空间。
2.1 示例数据与概念层次结构
假设有一个 AllElectronics 商店的销售事务数据,如下表所示:
| TID | Items Purchased |
| — | — |
| T100 | IBM - ThinkPad - T40/2373, HP - Photosmart - 7660 |
| T200 | Microsoft - Office - Professional - 2003, Microsoft - Plus! - Digital - Media |
| T300 | Logitech