不确定频繁模式挖掘技术解析
1. 不确定频繁模式挖掘基础
在不确定数据挖掘领域,我们常常会遇到概率数据集。以概率数据集 D2 为例,挖掘出的部分模式及其相关信息如下表所示:
| 模式 X | expSup(X, D2) | 基于事务上限的 expSup(X, D2) | 基于前缀项上限的 expSup(X, D2) |
| ---- | ---- | ---- | ---- |
| {a, c} | 1.16 | 1.62 | 1.44 |
| {a, d} | 0.84 | 0.96 | 0.84 |
| {b, d} | 0.79 | 0.96 | 0.96 |
| {c, d} | 0.54 | 0.54 | 0.54 |
| {a, c, e} | 0.22 | 0.72 | 0.27 |
此外,还有项目的期望支持度信息:
| 项目 | 期望支持度 |
| ---- | ---- |
| a | 2.3 |
| d | 1.4 |
| e | 1.0 |
| b | 2.2 |
| c | 1.8 |
在挖掘受限频繁模式时,U - FIC 算法会利用可转换约束的特性。它会根据与约束相关的属性值的单调顺序来排列 UF - tree 中的域项。这样做的好处是,对于满足可转换单调(COM)约束 CCOM 的模式的所有扩展,都能保证满足该约束,无需进行额外的约束检查;同时,对于违反可转换反单调(CAM)约束 CCAM 的模式及其扩展,会进行剪枝处理。通过利用用户指定的约束,U - FPS 和 U - FIC 的计算量与约束的选择性成正比。 <
超级会员免费看
订阅专栏 解锁全文

8

被折叠的 条评论
为什么被折叠?



