缺失值的存在会导致模型的精度下降,常用的缺失值处理方法有:
1、忽略缺失值字段(设置成none,在建模时忽略改字段的影响,或者过滤掉改字段)。
2、忽略带有缺失值的记录(如果记录很多,且缺失值的记录数据不多时可以考虑用此方法)。
3、用模型中的导出的值替代缺失值(相对比较麻烦)。
用户应该考虑缺失值的类型:
连续型:在建模之前就应该剔除任何非数值的值,因为如果在数值型字段中包括空格,那么许多模型都将无法执行。
离散型:例如,set flag的字符字段类型,改变缺失值并不是必须的,但是改变缺失值可以提高模型的精度。
缺失值的替换(考虑类型):
1、在“字段选项”中,选择“填充”
2、在模型中添加“填充”并进行如下设置:
双击“填充”,填入要填充的字段,用“@NULL (@FIELD)” 下面用0 填充。
空格的话,可以用“@BLANK (@FIELD)”
空格的话,可以用“@NULL (@FIELD)”