概率近似与不完整数据的序数分类规则归纳
在数据挖掘和分类问题中,概率近似和处理不完整数据是两个重要的研究方向。下面将详细介绍概率近似的相关概念、实验情况,以及在序数分类问题中处理不完整数据的方法。
概率近似
概率近似是一种用于处理概念近似的方法。对于完全指定的数据集,概率近似的定义如下:
[appr_{\alpha}(X) = \cup{[x] | x \in U, P(X | [x]) \geq \alpha}]
其中,([x]) 是 ([x]_A),(\alpha) 是一个参数,(0 < \alpha \leq 1)。当 (\alpha = 1) 时,概率近似变为标准的下近似;当 (\alpha) 接近 0(在实验中为 0.001)时,该定义描述的是标准的上近似。
对于不完整数据集,B - 概念概率近似由以下公式定义:
[\cup{K_B(x) | x \in X, Pr(X|K_B(x)) \geq \alpha}]
为了简化,我们将 (K_A(x)) 记为 (K(x)),并将 A - 概念概率近似称为概率近似。
以概念 (X = [(Trip, no)] = {1, 3, 5, 7}) 为例,对于任何特征集 (K(x)),(x \in U),条件概率 (P(X|K(x))) 如下表所示:
| (K(x)) | ({1}) | ({5, 7}) | ({7}) | ({3, 4, 6}) | ({3, 4, 8}) |
|---|
超级会员免费看
订阅专栏 解锁全文

1万+

被折叠的 条评论
为什么被折叠?



