人工智能算法学习笔记（二）——线性模型之线性回归

最新推荐文章于 2024-04-02 05:50:12 发布

姜球球

最新推荐文章于 2024-04-02 05:50:12 发布

阅读量1.4k

点赞数

分类专栏：人工智能

本文链接：https://blog.youkuaiyun.com/qq_34623720/article/details/86744667

版权

人工智能专栏收录该内容

7 篇文章

订阅专栏

根据上一篇开篇的那个思维导图，还是从有监督机器学习开始，其中线性模型里的算法是大多数机器学习者最初接触的，那么就从它开始吧。

一、线性模型

根据周志华老师的《机器学习》（俗称西瓜书）中的定义，线性模型是指其通过属性的线性组合来进行预测的函数：
$f(x)=w_1*x_1+w_2*x_2+w_3*x_3+...+w_d*x_d+b$
用一般的向量形式，则写成：
$f(x)=w^{T}*x+b$ ，其中 $w=(w_1,w_2,...,w_n)$
在学到 $w$ 和 $b$ 之后，模型也就确定了。因此，我们对模型有了一个初步了解，就是说要用训练集学习出一条线（or更高维度的平面或者其他什么）作为模型函数，而究竟这条线是用来拟合数据还是分类数据，就要看模型是属于回归模型还是分类模型了。
比如线性回归是属于回归模型的，而逻辑回归是属于分类模型的。我会分两章来分别记录这两种模型。

二、线性回归

2.1 线性回归概述

线性回归是对给定的训练数据集进行线性拟合，从而找到一条能使得大多数样本点都尽可能被准确预测的拟合线，比如公式如下：
$f(x_i)=w^{T}*x_i+b$ ，使得 $f(x_i)\approx y_i$
二维下的线性回归是一条线，三维下的是一个平面，N维。。。（画不出来了）

二维的线性回归模型

三维的线性回归模型

2.2 线性回归的学习策略

对于线性回归问题，我们最终的目的就是学习得到 $w$ 和 $b$ ，建立起这个模型公式，而目前最首要的问题就是：如何确定 $w$ 和 $b$ 最优就是接下来要学习的目标了。
求解 $w$ 和 $b$ 的最优解，常用的有两种方法（我目前所学到的，以后如果遇到更多解法且消化了再补充记录），一种是最小二乘法，另一种是梯度下降法。

2.2.1 最小二乘法

接下来将通过一个贴近真实世界的例子来使用最小二乘法来学习到 $w$ 和 $b$ .
以估计房价为例吧，假设真实世界里房子的面积 $x$ 和房价 $y$ 的关系是线性关系，且真实世界存在无法估计的误差 $\epsilon$ ，由于真实世界影响房价的因素（也就是房屋特征）很多，所以本例中就列举两个因素（特征,本例中比如房屋的面积 $x_1$ 和卧室的数量 $x_2$ ），这样模型就是 $y=w_0+w_1*x_1+w_2*x_2+\epsilon$ 。 $w_0$ ， $w_1$ ， $w_2$ 的值让误差的平方和 $\epsilon^{T}\epsilon$ 最小。
假如我们收集了五条数据：
$y_1=w_0+w_1*x_{11}+w_2*x_{12}+\epsilon_1$
$y_2=w_0+w_1*x_{21}+w_2*x_{22}+\epsilon_2$
$y_3=w_0+w_1*x_{31}+w_2*x_{32}+\epsilon_3$
$y_4=w_0+w_1*x_{41}+w_2*x_{42}+\epsilon_4$
$y_5=w_0+w_1*x_{51}+w_2*x_{52}+\epsilon_5$
用矩阵将这组式子进行简化，如下所示：
$y=\begin{bmatrix}y_1\\ y_2\\ y_3\\ y_4\\ y_5\end{bmatrix}$ $X=\begin{bmatrix} 1& x_{11}&x_{12} \\ 1& x_{21}&x_{22} \\ 1& x_{31}&x_{32} \\ 1& x_{41}&x_{42} \\ 1& x_{51}&x_{52} \end{bmatrix}$ $w=\begin{bmatrix} w_0\\ w_1\\ w_2 \end{bmatrix}$ $\epsilon =\begin{bmatrix} \epsilon _1\\ \epsilon _2\\ \epsilon _3\\ \epsilon _4\\ \epsilon _5 \end{bmatrix}$
那么 $y=Xw+\epsilon$ ，最小二乘法的思想就是要找到 $w$ 让误差的平方和最小，即 $\underset{w}{min} \:\epsilon^{T}\epsilon$
由于 $\epsilon=y-Xw$ ， $AB)^{T}=B^{T}A^{T}$ 且矩阵代数符合乘法分配律，因此：
$\epsilon^{T}\epsilon\:=(y-Xw)^T(y-Xw)$
$\qquad=(y-Xw)^Ty-(y-Xw)^TXw$
$\qquad=y^Ty-w^TX^Ty-y^TXw+w^TX^TXw$
由于 $w^TX^Ty$ 和 $y^TXw$ 都是 $1 * 1$ 的标量，对于标量 $a$ ， $a^T=a$ ，因此 $w^TX^Ty=(w^TX^Ty)^T=y^TXw$
那么 $\epsilon^T\epsilon=y^Ty-2w^TX^Ty+w^TX^TXw$
令 $\epsilon^T\epsilon$ 的梯度为0即可求得最小值 $\widehat{w}$ ，梯度就是导数的标量、向量或者矩阵形式，用 $\triangledown$ 表示梯度。
对于 $\epsilon^T\epsilon$ 的梯度被定义为：

$\triangledown_w=\begin{bmatrix} \frac{\partial \epsilon^T\epsilon}{\partial w_0}\\\\ \frac{\partial \epsilon^T\epsilon}{\partial w_1}\\\\ \frac{\partial \epsilon^T\epsilon}{\partial w_2} \end{bmatrix}$
分别对 $w 0, w 1, w 2$ 求偏导，组成向量就是 $\epsilon^T\epsilon$ 的梯度。
那么如何求呢？
可以将其分为三部分 $y^Ty$ 、 $2w^TX^Ty$ 和 $w^TX^TXw$ 分别对 $w$ 求梯度。
由于 $y^Ty$ 中并没有 $w$ ，因此 $\triangledown_wy^Ty=0$ ;
在求另外两项梯度前，先看如下情况：
情况1：求 $\triangledown_ww^Ta,a=\begin{bmatrix} a1\\ a2\\ a3\end{bmatrix}$

用标量形式表示 $w^Ta=w_0a_0+w_1a_1+w_2a_2$ ，可得
$\triangledown_ww^Ta=\begin{bmatrix} \frac{\partial w^Ta}{\partial w_0}\\\\ \frac{\partial w^Ta}{\partial w_1}\\\\\frac{\partial w^Ta}{\partial w_2} \end{bmatrix}=\begin{bmatrix} a0\\ a1\\ a2 \end{bmatrix}=a$
因此 $\epsilon^T\epsilon$ 中 $2w^TX^Ty$ 的梯度是 $2X^Ty$

情况2：对于 $\triangledown _ww^TAw$ ， $A$ 必须为对称矩阵，即：
$A=\begin{bmatrix} a_{11} & a_{12} &a_{13} \\ a_{12} & a_{22} &a_{23} \\ a_{13}&a_{23} & a_{33} \end{bmatrix}$
可得
$w^TAw=\begin{bmatrix} w_0 & w_1& w_2 \end{bmatrix}\begin{bmatrix} a_{11} & a_{12} &a_{13} \\ a_{12} & a_{22} &a_{23} \\ a_{13}&a_{23} & a_{33} \end{bmatrix}\begin{bmatrix} w_0\\\\ w_1\\\\ w_2 \end{bmatrix}\\ \qquad\quad=\begin{bmatrix} w_0 & w_1& w_2 \end{bmatrix}\begin{bmatrix} a_{11}w_0+a_{12}w_1+a_{13}w_2\\ a_{12}w_0+a_{22}w_1+a_{23}w_2\\ a_{13}w_0+a_{23}w_1+a_{33}w_2 \end{bmatrix}\\ \qquad\quad=a_{11}w_0^2+a_{22}w_1^2+a_{33}w_2^2+2a_{12}w_0w_1+2a_{13}w_0w_2+2a_{23}w_1w_2$
因此，
$\triangledown_ww^TAw=\begin{bmatrix} \frac{\partial w^TAw}{\partial w0}\\\\ \frac{\partial w^TAw}{\partial w1}\\\\ \frac{\partial w^TAw}{\partial w2} \end{bmatrix}=\begin{bmatrix} 2a_{11}w_0+2a_{12}w_1+2a_{13}w_2\\\\ 2a_{12}w_0+2a_{22}w_1+2a_{23}w_2\\\\ 2a_{13}w_0+2a_{23}w_1+2a_{33}w_2 \end{bmatrix}=2Aw$

对于 $\epsilon^T\epsilon$ 中的 $w^TX^TXw$ ，无论有多少条数据， $X^TX$ 都是 $3\times 3$ 对称矩阵，因此可得 $w^TX^TXw$ 的梯度是 $2X^TXw$ 。

由以上推导可得梯度是：
$\triangledown_w\epsilon^T\epsilon=\begin{bmatrix} \frac{\partial \epsilon^T\epsilon}{\partial w_0}\\\\ \frac{\partial \epsilon^T\epsilon}{\partial w_1}\\\\ \frac{\partial \epsilon^T\epsilon}{\partial w_0}\\\\ \end{bmatrix}=2X^TXw-2X^Ty$

当 $\epsilon^T\epsilon$ 最小时梯度为0，梯度上的各项偏导数为0，由此可得该位置的 $\hat{w}$ 就是所求的 $w$
$2X^TX\hat{w}-2X^Ty=0$
$X^TX\hat{w}=X^Ty$
$\hat{w}=\left ( X^TX \right )^{-1}X^Ty$

2.2.2 梯度下降法

前文的最小二乘法直接对梯度求导找出极值来求线性回归损失函数的最优解,它为非迭代法。
本节将记录一种新的方法来求损失函数的极值：梯度下降法（Gradient Descendent, GD），梯度下降法为最优化算法通常用于求解函数的极值，梯度下降法为迭代法，给定一个β在梯度下降最快方向调整β，经过N次迭代后找到极值，也就是局部最小值或全局最小值。
来个梯度下降核心算法直接的表达：
$\left \{ \\ \theta _{j}:=\theta_{j}-\alpha \frac{\partial J\left (\theta_{0},\theta_{1},...,\theta_{n} \right )}{\partial \theta_{j}}\\ \right \}$
可以看到，针对每一个系数，都采用对其取偏导数，然后使用一个合适的学习率参数 $\alpha$ 进行相乘并递减，重复这个过程，直到代价函数收敛到某个范围内。

随机梯度下降和批量梯度下降是两种迭代求解思路。
对于如下：
$h\left ( \theta \right )=\sum_{j=0}^{n}\theta _{j}x_{j}$
$J\left ( \theta \right )=\frac{1}{2m}\sum_{i=1}^{m}\left ( y^{i}-h_{\theta }\left ( x^{i} \right ) \right )^{2}$
$h\left ( \theta \right )$ 是要拟合的函数， $J\left ( \theta \right )$ 是损失函数， $\theta$ 是参数，要迭代求解的值， $\theta$ 求解出来了，那么最终要拟合的函数 $h\left ( \theta \right )$ 就出来了。其中m是训练集的记录条数，i是参数的个数。

批量梯度下降（BGD）
求解思路如下：

将 $J\left ( \theta \right )$ 对 $\theta$ 求偏导，得到每个 $\theta$ 对应的梯度，
$\frac{\partial J\left ( \theta \right )}{\partial\theta_j}=-\frac{1}{m}\sum_{i=1}^{m}\left ( y^i-h_\theta\left ( x^i \right ) \right )x_j^i$
由于是要最小化风险函数，所以按每个参数 $\theta$ 的梯度负方向，来更新每个 $\theta$
$\theta_j=\theta_j-\frac{1}{m}\sum_{i=1}^{m}\left ( y^i-h_\theta\left ( x^i \right ) \right )x_j^i$
从上面公式可以注意到，它得到的是一个全局最优解，但是每迭代一步，都要用到训练集所有的数据，如果m很大，那么可想而知这种方法的迭代速度！！！因此，就引入了另外一种方法，随机梯度下降。
PS：批量梯度下降每次学习都是用整个训练集，因此其优点在于每次更新都会朝着正确的方向进行，最后能够保证收敛于极值点（凸函数收敛于全局极值点非凸函数可能会收敛于局部极值点），但是其缺点在于每次学习时间过长，并且如果训练集很大以至于需要消耗大量的内存，并且全量梯度下降不能进行在线模型参数更新。

随机梯度下降（SGD）
求解思路如下：

上面的风险函数可以写成如下形式，损失函数对应的是训练集中每个样本的粒度，而上面批量梯度下降对应的是所有的训练样本：
$J\left ( \theta \right )=\frac{1}{m}\sum_{i=1}^{m}\frac{1}{2}\left ( y^i-h_\theta\left ( x^i \right ) \right )^2=\frac{1}{m}\sum_{i=1}^{m}cost\left ( \theta,\left ( x^i,y^i \right ) \right )$
$cost\left ( \theta,\left ( x^i,y^i \right ) \right )=\frac{1}{2}\left ( y^i-h_\theta\left ( x^i \right ) \right )^2$
每个样本的损失函数对 $\theta$ 求偏导得到对应梯度，来更新 $\theta$
$\theta_j=\theta_j+\left ( y^i-h_\theta\left(x^i\right) \right )x_j^i$
随机梯度下降是通过每个样本来迭代更新一次，如果样本很大的情况（如几十万），那么可能只用其中的几万或者几千条的样本，就已经将 $\theta$ 迭代到最优解了，对比上面的批量梯度下降，迭代一次需要用到十几万训练样本，一次迭代不可能最优，如果迭代10次的话就需要遍历训练样本10次。但是，SGD伴随的一个问题是噪音较BGD要多，使得SGD并不是每次迭代都向着整体最优化方向。