不完整数据库中的正确属性挖掘与高效约束挖掘
1. 不完整数据库中的 k - 自由性相关概念
在不完整数据库中,对象的停用规则对于关联规则挖掘至关重要。对于关联 $X→∨Y$,若对象因 $X$ 停用,或者包含 $X$ 但 $Y$ 的每个属性都缺失,则该对象会被停用。用 $DES(∧Y, mv(r_{X→∨Y}) X)$ 表示这些对象,有 $|DES(X→∨Y, mv(r {X→∨Y}))| = |DES(X, mv(r_{X→∨Y}))| + |DES(∧Y, mv(r_{X→∨Y})_X)|$。
与 A. Ragel 的方法相比,A. Ragel 在计算 $F(X, mv(r))$ 时,会停用 $X$ 中包含缺失值的所有对象,而不考虑对象是否支持 $X$。而本文采用了 M. Kryszkiewicz 提出的新定义。
通过不完整对象的停用,$XY$ 在 $r$ 中的频率可以由在 $mv(r)$ 中计算的两个量来界定:
$F(XY, mv(r)) - |DES(∧Y, (mv(r))_X)| ≤ F(XY, r) ≤ F(XY, mv(r)) + |DES(X, mv(r))|$
由此引出不完整数据库中 k - 自由性的定义:
- 模式 $Z$ 在 $mv(r)$ 中是 k - 自由的(记为 $kFree(Z, mv(r))$),当且仅当对于所有 $XY = Z$ 且 $|Y| ≤ k$,有 $F(XY, mv(r)) - |DES(∧Y, (mv(r))_X)| > 0$。
- 模式 $Z$ 在 $mv(r)$ 中是 k - 依赖的(记为 $kDepdt(Z, r)$),当且仅当存在 $XY = Z$ 且
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



