不确定数据挖掘与身份知识表示研究
1. 不确定数据频繁项集挖掘
在不确定数据频繁项集挖掘领域,已经提出了多种算法。
- UF - growth 算法 :该算法构建的 UF - 树可能会很大,因为只有当节点的 ⟨项,存在概率值⟩ 完全相同时,节点才会共享。
- UFP - growth 算法 :为了减少树节点的数量,UFP - growth 算法将具有相同项但存在概率值相似的节点进行聚类。不过,与 UF - growth 这个精确算法不同,UFP - growth 是一个近似算法,可能会产生误报。
为了进一步减少树节点数量(相较于 UF - 树)和误报(相较于 UFP - growth),提出了 CUF - growth 和 CUF - growth 算法:
- CUF - growth 算法 :通过在 CUF - 树中捕获上限(即事务中两个最高存在概率值的乘积),该算法为项集的期望支持度提供了一个严格的上限,从而减少了误报数量。它能在保持 CUF - 树节点数量与 FP - 树相同的情况下,高效地找到频繁项集。
- CUF - growth 算法**:该算法通过保留事务中项的第三高存在概率,进一步减少了误报数量,使得在从不确定数据中挖掘频繁项集时,项集的期望支持度上限更严格。
以下是几种算法的对比表格:
| 算法 | 树节点数量 | 误报情况 | 算法性质 |
| ---- | ---- | ---- | ---- |
| UF - growth |
超级会员免费看
订阅专栏 解锁全文
1452

被折叠的 条评论
为什么被折叠?



