机器学习入门有感(3)

        由于前文已对线性回归、梯度下降法作较多描述,因此本章节不对其进行赘述。

一、多元线性回归模型

        其假设函数如下:

Y^{(j)}=\theta _{0}X_{0}^{(j)}+\theta _{1}X_{1}^{(j)}+\cdots +\theta _{n}X_{n}^{(j)}+\varepsilon ^{(j)}=\sum_{i=0}^{n}\theta _{i}X_{i}^{(j)}+\varepsilon ^{(j)}

        其中,X_{0}^{(j)}=1,j=1,2,\cdots ,m,而事先假设出符号X_{0}则是为了后续简化梯度下降法的运算。

        其代价函数如下:

J(\theta _{0},\theta _{1},\cdots ,\theta _{n})=\frac{1}{2m}\sum_{j=1}^{m}(\hat{Y}-Y^{(j)})^{2}

        相应的梯度下降法公式如下:

   \theta _{i}=\theta _{i}-\alpha \frac{\partial J(\theta _{0},\theta _{1},\cdots ,\theta _{n})}{\partial \theta _{i}}=\theta _{i}-\frac{\alpha }{m}\sum_{j=1}^{m}(\sum_{i=0}^{n}\theta _{i}X_{i}^{(j)}-Y^{(j)})X_{i}^{(j)}

        从而求解出多元线性回归模型中的未知参数。

        同时,对于多元线性回归模型的变量选择,应当注意:(1)要避免多重共线性,即各解释变量之间不存在完全线性关系;(2)要根据实际情况来抉择,比如在房价预测问题中,选用房屋面积即房屋长度*房屋宽度这一解释变量比两个分开的解释变量要更为贴切一些;(3)对于一元回归模型来说,如果事先给出的样本点呈现一定的曲线幅度,则可采用多项式回归的方法,建立多元线性回归模型。

        多项式回归是关于解释变量多项式的回归模型,以下图为例(图中Y为房价,X为房屋面积大小):

图1 房价、房屋面积大小样本点图

        对于图中样本点的趋势,可以采用一元线性回归模型,但为了更加贴合趋势的幅度,也可采用多项式回归的方式进行拟合,如下式:

Y=\theta _{0}+\theta _{1}X+\theta _{2}X^{2}+\theta _{3}X^{3}

        又或者如下式:

Y=\theta _{0}+\theta _{1}X+\theta _{2}\sqrt{X}

        从而拟合出一条更为贴合样本点的趋势线,增加模型准确度。

        但是在进行多项式回归时,需要注意以下两点:

        (1)所抉择的多项式曲线趋势要贴合实际情况。以图1为例,一般来说,房屋面积越大,房价也会越大,因此如果仅选用二次多项式进行拟合,后面就会出现下降的趋势,从而与实际情况不符合。

        (2)由于在多项式回归中,解释变量的数值大小会随着次幂的增减而骤升骤减,比如变量X的数值范围在100左右,那么X^{3}的数值范围就可能在10^{6}附近,从而运用梯度下降法求解参数时会偏缓慢,严重影响求解效率。

二、特征放缩

        特征放缩实质上就是对变量进行归一化,使各变量的量纲保持在相似范围内,从而具备可对比性,它也可以用来解决梯度下降时由于变量数值相差较大而导致运算缓慢的问题。

        本章主要介绍两种特征放缩的方法。

        (1)Min-Max标准化。即标准化数据等于原数据和数据最小值的离差与数据最大值和数据最小值的离差的比值,其本质是根据最小值和最大值达到对[0,1]区间的映射,公式如下:

X^{s}=\frac{X-X_{min}}{X_{max}-X_{min}}

        同时如果希望区间映射到[-1,1]内,可以将原数据减去数据均值,再除以最大最小值的离差,其公式如下:

X^{z}=\frac{X-\mu }{X_{max}-X_{min}}

        (2)Z-Score标准化。即标准化数据等于原数据和数据均值的离差与数据标准差的比值,其也可用于正态分布的标准化处理,将均值和方差分别转化为0和1,公式如下:

X^{z}=\frac{X-\mu }{\sigma }

三、正规方程

        正规方程是求解线性回归模型参数的第二种方法,其依赖于数学方法对模型参数实现一次性求解。

        其原理如下:

        将多元线性回归模型以矩阵形式表达,有下述公式:

Y=X\theta +e

          其中,Y=\begin{pmatrix} Y^{(1)}\\Y^{(2)} \\\cdots \\ Y^{(m)}\end{pmatrix}\theta =\begin{pmatrix} \theta_{0}\\\theta_{1} \\\cdots \\ \theta_{n}\end{pmatrix}e =\begin{pmatrix} e^{(1)}\\e^{(2)} \\\cdots \\ e^{(m)}\end{pmatrix}

        X=\begin{pmatrix} {X^{(1)}}^{T}\\ {X^{(2)}}^{T} \\ \cdots \\ {X^{(m)}}^{T} \end{pmatrix}=\begin{pmatrix} 1 & X_{1}^{(1)} & X_{2}^{(1)} & \cdots &X_{n}^{(1)} \\1 & X_{1}^{(2)} & X_{2}^{(2)} &\cdots &X_{n}^{(2)} \\ \cdots & \cdots &\cdots &\cdots &\cdots \\1 & X_{1}^{(m)} &X_{2}^{(m)} & \cdots & X_{n}^{(m)} \end{pmatrix}_{m*(n+1)}

        同时,对于参数最小二乘估计量来说,应当有以下性质:

X^{T}e=0

        因此,对模型两边同时左乘X^{T}可以得到正规方程组如下:

X^{T}Y=X^{T}X\theta +X^{T}e=X^{T}X\theta

        而当模型满足七大古典假设时,(X^{T}X)^{-1}应当是存在的,故两边同时左乘(X^{T}X)^{-1},就可以得到参数的最小二乘估计如下式:

\hat{\theta}=(X^{T}X)^{-1}X^{T}Y

        而将上述式子代入计算机中,即可求解出相应的参数值。

四、正规方程与梯度下降法不同点

        两者作为求解线性回归模型的方法,有以下不同之处:

        (1)梯度下降法需要事先设定学习率\alpha,而正规方程无需事先设定。

        (2)梯度下降法需要多次迭代才能得到相应的参数值,而正规方程通过数学方法一次计算得出,无需迭代。

        (3)当解释变量个数较少时,正规方程求解参数的效率要大于梯度下降法,而当解释变量个数较多时,由于正规方程涉及到矩阵(X^{T}X)_{(n+1)*(n+1)}的求逆与运算,因此效率会低于梯度下降法。

        (4)梯度下降法可以适用于复杂预测模型,而正规方程在复杂预测模型的效果较差。

五、正规方程中矩阵不可逆时的求解

        一般来说,正规方程中矩阵不可逆可分为以下两种原因:

        (1)变量之间存在多重共线性。当各解释变量之间存在某种线性关系时,X^{T}X中就会出现两列或多列成比例的情况,从而导致行列式为0。此时可以通过删除引起共线性的变量再求解。

        (2)当解释变量个数n过多,甚至大于样本容量m时,矩阵也有可能会出现不可逆的情况。此时可以适当剔除一些影响较小的解释变量或者采用正则化的方法进行求解。

        同时,在各编程软件中,通过伪逆函数也可以求解不可逆矩阵的情况。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值