网上流传的关于特征取值范围不同的一个损失函数等高线图如下,为损失函数.
这个 损失函数来源于一个房价预测的案例:
房价预测函数为:
那么以均方误差MSE构建损失函数:
由于的取值范围远大于
, 因此对于同样的损失函数变化,即从一条等高线变化到另一条等高线,
比
的变化要小得多,也就是说等高线从横向来看,要比纵向来看密的多,最终的形状就会如上图所示是细长型。
通过梯度下降进行参数更新:
由于远大于
, 因此,每次更新时
的更新幅度要大于
, 也就是参数向量
的更新方向要更贴近
坐标轴方向。
因此,参数更新的路径就会像图中所示那样曲折前进,因而收敛速度很慢。
如果通过特征缩放,使每个维度的取值范围差不多,那就不会这么曲折前进了,而是步步直接逼近最优解。