原标题:一种挽救你缺失数据的好方法——多重补插
缺失数据——研究中的绊脚石
在医学研究中,我们经常会碰到缺失数据。无论是因为实验设计的问题,或是检测手段精度,又或是医学实验中的不可抗力因素。一旦数据没有被记录下来,就会产生数据缺失的情况。之所以缺失数据会成为我们研究的绊脚石,其原因在于缺失会产生数据信息的损失,而常规的分析方法与统计学均建基于无缺数据的基础上,因此数据缺失处理是医学研究中必须首先解决的问题。
缺失数据的处理是有一定难度的,其根源在于缺失的原因、数量比例与分布均会对我们的处理方法的选择产生影响。缺失的类型已经有不少著作进行了详细的研究,一般可分为完全随机缺失(MCAR)、随机缺失(MAR)与其它缺失(NMAR)。具体说明可以参考之前医学方相关的文章。
一般而言,所有数据缺失的处理方法仅适合于MCAR与MAR的处理,而对于NMAR最好是能重新设计实验或获取数据;而且缺失值的数据处理方法仅适用于客观数据的查漏补缺,对于主观的数据补缺的准确性没有保证。此外,缺失数据的类型与数量、分布也会影响我们处理方法的选择。当数量较少时(如小于5%)我们可以考虑删除或成对删除的方式处理,好处是方便简单,代价是损失了信息,对于重要的指标最好不使用此方法;而当缺失的数据较多时,就需要轮到我们今天的主角“数据补插”法大展身手了。数据补插可以分为以下几类:均值/众值补插、模型补插、多重补插等。几种方法各有特点,今天我们就先谈谈“多重补插”及其使用方式。
1
什么是多重补插法?
多重插补(Multiple Imputation,MI)的是基于各种模型(如回归、决策树、贝叶斯估计等方法)。简单而言:该方法认为缺失值是随机的,它的值可以通过已观测到的值进行预测与插值。
多重插补方法分为三个步骤:
(1)通过已知数值建立插值函数,估计出待插补的值,然后在数值上再加上不同的偏差,形成多组可选插补值,形成多套待评估的完整的数据集;
(2)对所产生的数据集进行统计分析;
(3)评价每个数据集的结果,根据模型的评分选择最佳的补插值。由于在分析中引入多个模拟