场景描述
为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得不同指标之间具有可比性。例如,分析一个人的身高和体重对健康的影响,如果使用米(m) 和千克(kg)作为单位,那么身高特征会在1.6 - 1.8m的数值范围内,体重特征会在50 - 100kg的范围内,分析出来的结果显然会倾向于数值差别比较大的体重特征。想要得到更为准确的结果,就需要进行特征归一化(normalization)处理,使得各指标处于同一数值量级,以便于分析。
为什么需要对数据类型的特征做归一化?难度:★☆☆☆☆
归一化常用方法
对数值类型的特征做归一化可以将所有的特征都统一到一个大致相同的数值区间内。最常用的方法主要有以下两种:
① 线性函数归一化(Min - Max Scaling)
它对原始数据进行线性变换,使得结果映射到【0,1】的范围,实现对原始数据的等比缩放。 归一化公式如下: