[Coursera/Machine Learning]--Why do we need feature scaling?

本文讨论了特征缩放在机器学习中的重要性。通过两个实例说明，当特征尺度差异较大时，特征缩放可以提高模型精度并加速梯度下降的收敛速度。

Reference:http://blog.sina.com.cn/s/blog_7f2889330101awle.html
1.对精度的影响：很明显，这个步骤的必要性要依赖于数据特征的特性，如果有>=2特征，并且不同特征间的值变化范围差异大，那就很有必要使用Feature scaling。比如说，在信用卡欺诈检测中，如果我们只使用用户的收入作为学习特征，那就没有必要做这个步骤。但是如果我们同时使用用户的收入和用户年龄两个特征的话，在建模之前采用这个步骤就很有可能能提高检测精度，这是因为用户收入这个特征的取值范围可能为[50000,60000]甚至更大，但用户年龄只可能是[20,100]左右，这时候，假如说我用K最近邻的方法去做检测的话，用户收入这个特征的相似度对检测结果的影响将会大大大于用户年龄的作用，然而事实上，这两个特征对欺诈检测可能有着同等的重要性。因此，假如我们在检测实施前，对着两个特征进行规范化，那我们的检测方法中就能真正地同等对待它们。
2. 再举一个例子，该例子来源于Ng教授的ML课程，
这里写图片描述
例子如上图，在该例子中，我们想用线性回归根据房屋的大小和房屋的卧室数量来预测房价，采用的优化方法为batch gradient descent。在建立模型的过程中，如果不对房屋的大小和房屋的卧室数量两个特征规范化，我们的优化问题将会在很skewed的区域中进行（如左图所示），这样会使得batch gradient descent的收敛很慢。而当我们对其进行规范化之后，问题就会转变为偏圆形的空间中优化，这时候，batch gradient descent的收敛速度将会得到大幅度提高。