当某一列数据的缺失值超过了达到了50%,可能这列数据会被简单粗暴的删掉弃用。
其实,应该可以再分析一下是随机缺失还是与其他变量相关,如:
(1)随时间的增加数据越来越完整。
(2)在女性中比较完整,男性中缺失严重
这两种情况该要怎么处理最合适呢?
当某一列数据的缺失值超过了达到了50%,可能这列数据会被简单粗暴的删掉弃用。
其实,应该可以再分析一下是随机缺失还是与其他变量相关,如:
(1)随时间的增加数据越来越完整。
(2)在女性中比较完整,男性中缺失严重
这两种情况该要怎么处理最合适呢?