最重要的事情开始都会讲:建模是始终服务于业务的,没有业务的评分卡就没有灵魂
广义数据预处理包括:数据清洗,数据集成(用户基础数据,外部第三方数据,埋点数据),数据变换(WOE)
类型
-
重复值
-
字段问题
-
空格
-
大小写不一致
-
多余符号
-
关键字
-
替换
-
缺失值
-
完全随机缺失(是随机的,数据的缺失不依赖于任何不完全变量或完全变量:设备出问题,导致缺失值,仅仅本身问题)
-
随机缺失(数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量。比如家里没有小孩,家里不愿意说小孩或者单身没有太太,即选项问题)
-
完全非随机缺失(数据的缺失依赖于不完全变量自身:富裕家庭不愿意提供,或者用户的确没有该数据,比如多头借贷)
-
处理方式:
补缺(均值,最大值,最小值,拉格朗日差值)