23、缺失值处理算法及模式分析

放屁带闪电

于 2025-08-15 13:17:32 发布

阅读量7

点赞数

CC 4.0 BY-SA版权

分类专栏：智能系统中的不确定性文章标签：缺失值处理 MCAR MAR

本文链接：https://blog.youkuaiyun.com/grafana8visual/article/details/153661053

智能系统中的不确定性专栏收录该内容

90 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

缺失值处理算法及模式分析

1. 引言

在当今数据科学和大数据时代，数据集中的缺失值问题愈发重要。许多先进算法在处理包含缺失值的数据集时，要么无法正常工作，要么性能显著下降。为解决这一问题，人们提出了多种算法，包括单值插补、多重插补和期望最大化等。然而，这些算法的性能很大程度上取决于所应用的数据集，因此深入了解缺失值的模式对于选择合适的算法至关重要。

2. 缺失数据类型与模式

2.1 缺失数据类型

Rubin定义了三种主要的缺失值类型：
- Missing Completely At Random (MCAR) ：如果“值缺失”的概率分布与观测或缺失的数据完全独立，则数据为MCAR。形式上，设 $y$ 为目标属性，$X$ 为包含缺失值的输入属性矩阵，$X_{obs}$ 为 $X$ 中的观测值，$Z = (y, X)$，$Z_{obs} = (y, X_{obs})$，$R$ 为指示矩阵（若 $x_{ij}$ 缺失，$R$ 的 $ij$ 元素为 1，否则为 0），则当 $Pr(R|Z, \theta) = Pr(R|\theta)$ 时，数据为MCAR。
- Missing At Random (MAR) ：当“值缺失”的概率分布依赖于观测到的（非缺失）值时，数据为MAR。即 $Pr(R|Z, \theta) = Pr(R|Z_{obs}, \theta)$。
- Missing Not At Random (MNAR) ：若数据不是MAR，则为MNAR。

例如，在医院收集的患者数据中，如果医生因看到患者体温过