23、缺失值处理算法及模式分析

缺失值处理算法及模式分析

1. 引言

在当今数据科学和大数据时代,数据集中的缺失值问题愈发重要。许多先进算法在处理包含缺失值的数据集时,要么无法正常工作,要么性能显著下降。为解决这一问题,人们提出了多种算法,包括单值插补、多重插补和期望最大化等。然而,这些算法的性能很大程度上取决于所应用的数据集,因此深入了解缺失值的模式对于选择合适的算法至关重要。

2. 缺失数据类型与模式

2.1 缺失数据类型

Rubin定义了三种主要的缺失值类型:
- Missing Completely At Random (MCAR) :如果“值缺失”的概率分布与观测或缺失的数据完全独立,则数据为MCAR。形式上,设 $y$ 为目标属性,$X$ 为包含缺失值的输入属性矩阵,$X_{obs}$ 为 $X$ 中的观测值,$Z = (y, X)$,$Z_{obs} = (y, X_{obs})$,$R$ 为指示矩阵(若 $x_{ij}$ 缺失,$R$ 的 $ij$ 元素为 1,否则为 0),则当 $Pr(R|Z, \theta) = Pr(R|\theta)$ 时,数据为MCAR。
- Missing At Random (MAR) :当“值缺失”的概率分布依赖于观测到的(非缺失)值时,数据为MAR。即 $Pr(R|Z, \theta) = Pr(R|Z_{obs}, \theta)$。
- Missing Not At Random (MNAR) :若数据不是MAR,则为MNAR。

例如,在医院收集的患者数据中,如果医生因看到患者体温过

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值