缺失值

最新推荐文章于 2023-12-26 01:56:13 发布

转载最新推荐文章于 2023-12-26 01:56:13 发布 · 1.5k 阅读

17 篇文章

订阅专栏

缺失值可分为两类：一类是这个值实际存在但是没有被观测到，例如客户的性别；另一类是这个值实际就不存在，例如，在调查顾客购买的洗发液品牌时，如果某位顾客根本没有购买任何洗发液，那么这位顾客购买的洗发液品牌缺失。如何处理缺失值是一个很复杂的课题，这里仅做简要介绍，有兴趣的读者可以参阅这方面的专著（Schafer，1997；LittleandRubin，2002）。

（一）自变量的缺失值

如果某个自变量是非随机缺失的，那么“是否缺失”这一信息可能有助于预测因变量。例如，在一项消费者调查中，月收入这一栏存在很多缺失值。如果缺失是因为高收入的消费者不愿意透露自己的收入状况，那么月收入是否缺失这一信息也许就能帮助预测购买金额。我们可以针对每个含缺失值的自变量产生一个指示变量（1代表观测到，0代表缺失），并将这些指示变量加入建模数据集。例如，若有三个含缺失值的自变量，就可以生成三个指示变量，对应于八种缺失模式：（1，1，1），（1，1，0），（1，0，1），（1，0，0），（0，1，1），（0，1，0），（0，0，1）和（0，0，0）。

某些数据挖掘方法能够直接处理自变量含缺失值的数据，譬如决策树；但很多数据挖掘方法都只能处理自变量没有缺失值的数据，譬如线性回归、神经网络等。在使用后一类方法时，不能简单地删除自变量有缺失值的所有观测，除非这些观测的比例非常小。因为从理论上说，只有在完全随机缺失的情况下，删除有缺失值的观测才不会影响统计分析结果。因此，我们通常要先对缺失值进行插补（imputation）。常用的插补方法都假设被插补的自变量完全随机缺失或随机缺失；对于非随机缺失的自变量，因为无法从已观测数据中推断该变量是否缺失与它的真实值之间的关系，所以没有现成的插补方法。

几种常用的缺失值插补方法如下：

1.均值、中位数或众数插补对数值变量而言，使用已观测的数据的平均值或中位数来插补缺失值。对分类变量而言，使用已观测的数据的众数（也就是频率最高的类别）来插补缺失值。

这种方法建立在完全随机缺失的假设之上，简单易行。但是，它对所有缺失值都赋予同一个值，如果缺失比例比较大，会扭曲被插补的变量与其他变量的关系。

2.模型插补针对被插补的自变量与其他自变量之间的关系建立模型，再使用模型预测值插补缺失值。这种方法建立在随机缺失的假设之上。注意插补模型中不能使用因变量，因为插补值将来也要用于建立因变量的预测模型（不能形成循环，既使用因变量的值产生插补值，又使用插补值预测因变量的值）。

（1）插补模型可以如下建立：针对每个有缺失值的自变量，建立使用其他自变量来预测该变量的模型。如果其他自变量也有很多缺失值，可采用决策树等能够直接处理自变量含缺失值的数据的模型。

（2）也可假设一些自变量满足多元正态分布，并使用马尔可夫链蒙特卡罗迭代算法来插补缺失值。通常，有些自变量需要进行转换以便更好地满足正态假设，例如，将收入进行对数转换。

3.多重插补（Rubin，1987）首先，使用插补模型对缺失值进行多次插补；然后，对产生的多个数据集分别进行分析。最后，把这些分析结果进行综合。这种方法反映了由于数据缺失而导致的不确定性，有助于获得更加有效的统计推断。SAS中的MI过程可用于多重插补。

（二）因变量的缺失值常用的数据挖掘方法都会忽略因变量缺失的观测，这种做法隐含地假设因变量完全随机缺失或随机缺失。没有什么现成的方法能够处理非随机缺失的因变量，只能对因变量是否缺失与它的真实值之间的关系做一些复杂假设，但这些假设无法根据已观测数据进行验证。