目录
数据归一化的目的:
由于特征之间的量纲不同,如果直接采用源数据进行机器学习,则不能很好的同时反应各个特征的重要程度;
所以在机器学习前,首先要对数据进行 数据归一化处理,将数据映射到同一尺度。
方法:
1. 最值归一化处理(normalization) :把所有数据映射到 0-1 之间;
适用于数据分布有明显边界的情况;比如一组特征是 考试的分数,分数有明显的边界;
缺点:受outlier(异常值)影响比较大,比如没有明显边界的数据;例如:收入的分布,如果大部分人的收入很少,少部分人的收入非常高,最值归一化处理后,低收入人群的值会被 “挤到” 很小的区域。
2.均值方差归一化(standardization): 把所有的数据归一到均值为0,方差为1的分布中;
适用于数据分布没有明