基于子空间聚类的差分依赖挖掘方法
1. 引言
在数据挖掘领域,差分依赖(Differential Dependencies,DD)的挖掘是一个重要的研究方向。为了避免在挖掘过程中出现冗余信息,我们定义了感兴趣的簇,即关于元组包含最大且关于属性包含无冗余的β - n簇。
2. 相关定义
- 最大β - n簇 :一个β - n簇$(T, X)$是最大的,当且仅当不存在$(T ∪, X)$使得$T \in T ∪$。
- β - n簇的自由集 :设$\Psi_X$是子空间$X$的所有最大β - n簇的集合,$\Psi_X$是自由的,当且仅当不存在$\Psi_Y$,使得对于所有$(T, X) \leq \Psi_X$,存在$(T ∪, Y) \leq \Psi_Y$且$T ∪ = T$,其中$Y \in X$。
- 自由 - 最大β - n簇 :如果$\Psi_X$关于元组包含是最大的且关于属性集包含是自由的,则称其为自由 - 最大β - n簇。
3. 引理与示例
引理1表明,如果$\Psi_X = {I_1, I_2, \cdots, I_d}$是关系$r$中子空间$X$的自由 - 最大β - n簇的集合,那么$\theta$ - 差分函数(DF)$X[W] = A_1[w_1] \land \cdots \land A_m[w_m]$在$r$中成立,其中$A_1, \cdots, A_m$是$X$中的属性且$\theta = \beta$。具体地,$T(X[W]
超级会员免费看
订阅专栏 解锁全文
463

被折叠的 条评论
为什么被折叠?



