机器学习入门有感（3）-优快云博客

本文链接：https://blog.youkuaiyun.com/jamesYou2/article/details/137528146

由于前文已对线性回归、梯度下降法作较多描述，因此本章节不对其进行赘述。

一、多元线性回归模型

其假设函数如下：

$Y^{(j)}=\theta _{0}X_{0}^{(j)}+\theta _{1}X_{1}^{(j)}+\cdots +\theta _{n}X_{n}^{(j)}+\varepsilon ^{(j)}=\sum_{i=0}^{n}\theta _{i}X_{i}^{(j)}+\varepsilon ^{(j)}$

其中， $X_{0}^{(j)}=1,j=1,2,\cdots ,m$ ，而事先假设出符号 $X_{0}$ 则是为了后续简化梯度下降法的运算。

其代价函数如下：

$J(\theta _{0},\theta _{1},\cdots ,\theta _{n})=\frac{1}{2m}\sum_{j=1}^{m}(\hat{Y}-Y^{(j)})^{2}$

相应的梯度下降法公式如下：

$\theta _{i}=\theta _{i}-\alpha \frac{\partial J(\theta _{0},\theta _{1},\cdots ,\theta _{n})}{\partial \theta _{i}}=\theta _{i}-\frac{\alpha }{m}\sum_{j=1}^{m}(\sum_{i=0}^{n}\theta _{i}X_{i}^{(j)}-Y^{(j)})X_{i}^{(j)}$

从而求解出多元线性回归模型中的未知参数。

同时，对于多元线性回归模型的变量选择，应当注意：（1）要避免多重共线性，即各解释变量之间不存在完全线性关系；（2）要根据实际情况来抉择，比如在房价预测问题中，选用房屋面积即房屋长度*房屋宽度这一解释变量比两个分开的解释变量要更为贴切一些；（3）对于一元回归模型来说，如果事先给出的样本点呈现一定的曲线幅度，则可采用多项式回归的方法，建立多元线性回归模型。

多项式回归是关于解释变量多项式的回归模型，以下图为例（图中Y为房价，X为房屋面积大小）：

图1 房价、房屋面积大小样本点图

对于图中样本点的趋势，可以采用一元线性回归模型，但为了更加贴合趋势的幅度，也可采用多项式回归的方式进行拟合，如下式：

$Y=\theta _{0}+\theta _{1}X+\theta _{2}X^{2}+\theta _{3}X^{3}$

又或者如下式：

$Y=\theta _{0}+\theta _{1}X+\theta _{2}\sqrt{X}$

从而拟合出一条更为贴合样本点的趋势线，增加模型准确度。

但是在进行多项式回归时，需要注意以下两点：

（1）所抉择的多项式曲线趋势要贴合实际情况。以图1为例，一般来说，房屋面积越大，房价也会越大，因此如果仅选用二次多项式进行拟合，后面就会出现下降的趋势，从而与实际情况不符合。

（2）由于在多项式回归中，解释变量的数值大小会随着次幂的增减而骤升骤减，比如变量 $X$ 的数值范围在100左右，那么 $X^{3}$ 的数值范围就可能在 $10^{6}$ 附近，从而运用梯度下降法求解参数时会偏缓慢，严重影响求解效率。

二、特征放缩

特征放缩实质上就是对变量进行归一化，使各变量的量纲保持在相似范围内，从而具备可对比性，它也可以用来解决梯度下降时由于变量数值相差较大而导致运算缓慢的问题。

本章主要介绍两种特征放缩的方法。

（1） $Min-Max$ 标准化。即标准化数据等于原数据和数据最小值的离差与数据最大值和数据最小值的离差的比值，其本质是根据最小值和最大值达到对 $[0,1]$ 区间的映射，公式如下：

$X^{s}=\frac{X-X_{min}}{X_{max}-X_{min}}$

同时如果希望区间映射到 $[-1,1]$ 内，可以将原数据减去数据均值，再除以最大最小值的离差，其公式如下：

$X^{z}=\frac{X-\mu }{X_{max}-X_{min}}$

（2） $Z-Score$ 标准化。即标准化数据等于原数据和数据均值的离差与数据标准差的比值，其也可用于正态分布的标准化处理，将均值和方差分别转化为0和1，公式如下：

$X^{z}=\frac{X-\mu }{\sigma }$

三、正规方程

正规方程是求解线性回归模型参数的第二种方法，其依赖于数学方法对模型参数实现一次性求解。

其原理如下：

将多元线性回归模型以矩阵形式表达，有下述公式：

$Y=X\theta +e$

其中， $Y=\begin{pmatrix} Y^{(1)}\\Y^{(2)} \\\cdots \\ Y^{(m)}\end{pmatrix}$ ， $\theta =\begin{pmatrix} \theta_{0}\\\theta_{1} \\\cdots \\ \theta_{n}\end{pmatrix}$ ， $e =\begin{pmatrix} e^{(1)}\\e^{(2)} \\\cdots \\ e^{(m)}\end{pmatrix}$ ，

$X=\begin{pmatrix} {X^{(1)}}^{T}\\ {X^{(2)}}^{T} \\ \cdots \\ {X^{(m)}}^{T} \end{pmatrix}=\begin{pmatrix} 1 & X_{1}^{(1)} & X_{2}^{(1)} & \cdots &X_{n}^{(1)} \\1 & X_{1}^{(2)} & X_{2}^{(2)} &\cdots &X_{n}^{(2)} \\ \cdots & \cdots &\cdots &\cdots &\cdots \\1 & X_{1}^{(m)} &X_{2}^{(m)} & \cdots & X_{n}^{(m)} \end{pmatrix}_{m*(n+1)}$