特征归一化的好处:
1.提升模型的收敛速度
比如两个特征x1和x2,x1的取值为0到1000,x2的取值为0到5,如果只有这两个特征,对其优化时,会得到一个窄长的椭圆,导致在梯度下降时,梯度的方向为垂直等高线的方向而走之字形路线,这样会使迭代很慢。如果做了归一化处理,是一个圆,梯度方向为直接指向圆心,迭代就会很快。归一化节省了寻找最优解的时间。
2.提高模型的精度
距离计算时效果显著,比如欧氏距离,上面x2的取值范围较小,涉及距离计算时对结果影响远小于x1.造成精度不准确。
问题:
具体如何归一化?
归一化对于那类样本特征适合,如果样本特征值为非数值型如何归一化处理?
那些算法需要归一化?那些算法不需要归一化?为什么?
后面我会一一解答此处问题。