已知梯度下降的方向为偏导数方向,即为该点的切线(面)方向。以上两张图分别是未经特征缩放处理和经特征缩放处理过的特征图像,由图1可知,由于图像为椭圆形,因此从外面的圆往里面梯度下降时,梯度下降的方向都会改变,未经缩放处理的梯度下降曲曲折折迭代较多次才能从出发点A到目标点B,而图2中由于是多个同心圆(近似),所以每次梯度下降都大致在一个方向,自然迭代次数就少的多。该过程可用数学推导,证明特征缩放的确可以加快梯度下降速度。
特征缩放公式: θ∗=θ−averagemax−minθ∗=θ−averagemax−min 或 θ∗=θmaxθ∗=θmax , 其中 θθ 为待缩放特征,average为 θθ 的平均值,max为最大的 θθ ,min为最小 θθ 。一般将特征缩放到[-1, 1]区间,也可以是[0, 2],也可以是[-3,3]或[-0.2,0.2],但一最好不要太大或太小,如[-1000, 1000]、[-0.001,0.001]都是不合适缩放区间。可能和计算机缩放时数据损失(如double型转换成float型就会有精度损失)有关。Stanford——机器学习中的特征缩放理解(Features Scaling)
最新推荐文章于 2023-12-19 22:15:07 发布