首先有一个疑问,关于特征工程部分,是否需要把上面的方法都处理一遍,比如对于有些优秀的树模型对数据处理的要求就相对比较少,所以还是建议先把后续建模阶段的要求理清楚再针对性下手比较好。
这里主要写自己目前在研究的几个点:
1、数据分箱
- 特征分箱的目的:
从模型效果上来看,特征分箱主要是为了降低变量的复杂性,减少变量噪音对模型的影响,提高自变量和因变量的相关度。从而使模型更加稳定。 - 数据分桶的对象:
(1)将连续变量离散化
(2)将多状态的离散变量合并成少状态 - 分箱的原因:
数据的特征内的值跨度可能比较大,对有监督和无监督中如k-均值聚类它使用欧氏距离作为相似度函数来测量数据点之间的相似度。都会造成大吃小的影响,其中一种解决方法是对计数值进行区间量化即数据分桶也叫做数据分箱,然后使用量化后的结果。 - 分箱的优点:
(1)处理缺失值:当数据源可能存在缺失值,此时可以把null单独作为一个分箱。
(2)处理异常值:当数据中存在离群点时,可以把其通过分箱离散化处理,从而提高变量的鲁棒性(抗干扰能力)。例如,age若出现200这种异常值,可分入“age > 60”这个分箱里,排除影响。
(3)业务解释性:我们习惯