缺失值处理算法及模式分析
1. 引言
在当今数据科学和大数据时代,数据集中的缺失值问题愈发重要。许多先进算法在处理包含缺失值的数据集时,要么无法正常工作,要么性能显著下降。为解决这一问题,人们提出了多种算法,包括单值插补、多重插补和期望最大化等。然而,这些算法的性能很大程度上取决于所应用的数据集,因此深入了解缺失值的模式对于选择合适的算法至关重要。
2. 缺失数据类型与模式
2.1 缺失数据类型
Rubin定义了三种主要的缺失值类型:
- Missing Completely At Random (MCAR) :如果“值缺失”的概率分布与观测或缺失的数据完全独立,则数据为MCAR。形式上,设 $y$ 为目标属性,$X$ 为包含缺失值的输入属性矩阵,$X_{obs}$ 为 $X$ 中的观测值,$Z = (y, X)$,$Z_{obs} = (y, X_{obs})$,$R$ 为指示矩阵(若 $x_{ij}$ 缺失,$R$ 的 $ij$ 元素为 1,否则为 0),则当 $Pr(R|Z, \theta) = Pr(R|\theta)$ 时,数据为MCAR。
- Missing At Random (MAR) :当“值缺失”的概率分布依赖于观测到的(非缺失)值时,数据为MAR。即 $Pr(R|Z, \theta) = Pr(R|Z_{obs}, \theta)$。
- Missing Not At Random (MNAR) :若数据不是MAR,则为MNAR。
例如,在医院收集的患者数据中,如果医生因看到患者体温过
超级会员免费看
订阅专栏 解锁全文

2523

被折叠的 条评论
为什么被折叠?



