从零开始-Machine Learning学习笔记(3)-线性回归中的特征缩放与正规方程

1.特征缩放

​ 我们在使用多元线性回归的时候,会有多个变量,每个变量的量纲不一样导致其数值上也会不一样。比如我们对与房屋价格的预测上,房间的大小的单位是平方米,其数值大小在几十到几百,而房间数则是一个10以内的数值。如果我们绘制代价函数J的等高线图就可以清楚的看到特征之间的数值差异过大会导致等高线图呈现一个扁长的状态,而这样会导致梯度下降算法要迭代很多次才能收敛。

这里写图片描述

​ 因此,为了解决这个因为数值差异过大而导致的收敛速度慢的问题,我们应该在进行梯度下降之前对这些数值做一些缩放,这就是所谓的特征缩放。通常,我们将所有的特征尺度都缩放到[-1,1]之间。所使用的手段一般为均值归一化:

xn=xnμnmaxmin x n = x n − μ n m a x − m i n

其中, μn μ n 是平均值。

2.多元线性回归的正规方程

​ 所谓正规方程,就是通过矩阵运算的方式求出最优解的方法,之前我们一直采用的是梯度下降算法来求解我们回归方程中的未知量。现在则可以通过矩阵运算的方式来进行直接求解。具体的推导如下:

J=i=1n(yif(xi))2=i=1n(yiwxi)2 原 代 价 函 数 为 : J = ∑ i = 1 n ( y i − f ( x i ) ) 2 = ∑ i = 1 n ( y i − w x i ) 2

J=(yXw)T(yXw) 化 为 矩 阵 形 式 ( 正 规 方 程 ) : J = ( y − X w ) T ( y − X w )

wdJdw=2XT(Xwy) 代 价 函 数 对 w 求 偏 导 数 : d J d w = 2 X T ( X w − y )

0XTXw=XTy 令 这 个 偏 导 数 为 0 可 以 得 到 以 下 的 递 推 式 : X T X w = X T y

ww=(XTX)1(XTy) 最 后 可 以 得 到 w 的 表 达 式 为 : w = ( X T X ) − 1 ( X T y )

最后我们通过正规方程得到了最优的解向量。

显然,使用这种方式要保证 (XTX)1 ( X T X ) − 1 要存在,即 (XTX)1 ( X T X ) − 1 是正定矩阵。当 (XTX)1 ( X T X ) − 1 不是行满秩的时候,会得到多个解向量,选择哪一个解作为输出将由学习算法的归纳偏好决定,常见的做法是引入正则化项。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值