1、学习目标
- 学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法
- 学习特征交互、编码、选择的相应方法
- 完成相应学习打卡任务,两个选做的作业不做强制性要求,供学有余力同学自己探索
2、特征处理
- 数据预处理有如下三种情况,掌握即可:
a. 缺失值的填充
b. 时间格式处理
c. 对象类型特征转换到数值
异常值处理有2种,我感觉第一种更好用,直接剔除掉:
a. 基于3segama原则
b. 基于箱型图
-
数据分箱
a. 固定宽度分箱
b. 分位数分箱
离散数值型数据分箱
连续数值型数据分箱
c. 卡方分箱(选做作业) -
特征交互
a. 特征和特征之间组合
b. 特征和特征之间衍生
c. 其他特征衍生的尝试(选做作业) -
特征编码
a. one-hot编码
b. label-encode编码 -
特征选择
a. 1 Filter
b. 2 Wrapper (RFE) c. 3 Embedded