机器学习——线性回归（Linear Regression）

最新推荐文章于 2024-08-18 23:20:49 发布

原创最新推荐文章于 2024-08-18 23:20:49 发布 · 197 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

机器学习专栏收录该内容

13 篇文章

订阅专栏

本文通过实例解析线性回归原理，介绍如何利用工资和年龄预测银行贷款额度。深入探讨线性回归算法，包括似然函数、目标函数及其求解方法——梯度下降。并讨论了批量梯度下降、随机梯度下降及小批量梯度下降的优缺点。

1、从一个例子来了解线性回归

数据：工资和年龄
目标：预测银行贷款额度
考虑：工资和年龄对银行贷款额度的影响程度

工资	年龄	贷款额度
4000	25	20000
8000	30	70000
5000	28	35000
7500	33	50000
12000	40	85000

自变量(特征)：工资(X1)、年龄(X2)
因变量：贷款额度(y)
假设 $θ1\theta_1$ 是工资参数， $θ2\theta_2$ 是年龄参数，
则该例子中回归方程为： $hθ(x)=θ0+θ1x1+θ2x2h_\theta(x) =\theta_0 + \theta_1x_1 +\theta_2x_2$

2、线性回归算法详解（Linear Regression）

对于每个样本,输出值是各特征的线性组合：
$hθ(x)=θ0+θ1x1+θ2x2+⋯+θnxnh_\theta(x) =\theta_0 + \theta_1x_1 +\theta_2x_2+\cdots+\theta_nx_n$
$hθ(x)=∑i=1nθixi=θTxh_\theta(x) = \displaystyle\sum_{i=1}^n\theta_ix_i=\theta^Tx$ (其中 $θ0\theta_0$ 是偏置项)

假设样本数量为m,每个样本包含n个特征，则输入数据为一个m*n的矩阵。
$θ\theta$ :表示各个特征的权重
$x^{(i)}$ :表示第 $i$ 行所有的 $x$
$hθ(x(i))h_\theta(x^{(i)})$ :表示第 $i$ 行所有的 $x$ 乘以 $θ\theta$ 后的取值
$y^{(i)}$ :表示第 $i$ 行对应的真实的 $y$ 值

误差

真实值与预测值之间的误差用 $ε\varepsilon$ 表示，对于每个样本，有
$y(i)=θTx(i)+ε(i)y^{(i)} = \theta^Tx^{(i)} + \varepsilon^{(i)}$
误差 $ε(i)\varepsilon^{(i)}$ 服从均值为0方差为 $σ2\sigma^2$ 的高斯分布

似然函数

高斯分布函数密度曲线可以表示为：
$\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ ( $μ\mu$ :均值 $σ\sigma$ :标准差)
则有误差服从高斯分布：
$p(ε(i))=12πσe−(ε(i))22σ2p(\varepsilon^{(i)})=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(\varepsilon^{(i)})^2}{2\sigma^2}}$
将误差公式代入，则有
$p(y(i)∣x(i);θ)=12πσe−(y(i)−θTx(i))22σ2p(y^{(i)}|x^{(i)};\theta)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}}$
似然函数： $L(θ)=∏i=1mp(y(i)∣x(i);θ)=∏i=1m12πσe−(y(i)−θTx(i))22σ2L(\theta)=\displaystyle\prod_{i=1}^mp(y^{(i)}|x^{(i)};\theta)=\displaystyle\prod_{i=1}^m\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}}$
似然函数解释：什么样的参数组合 $θT\theta^T$ 能够使得数据的预测值恰好是真实值的概率最大

似然函数公式化简

由于似然函数包含累乘算术，将累乘变成累加有利于计算
根据 $l o g (A * B) = l o g A + l o g B$ 则有
对数似然函数：
$logL(θ)=log∏i=1mp(y(i)∣x(i);θ)=log∏i=1m12πσe−(y(i)−θTx(i))22σ2logL(\theta)=log\displaystyle\prod_{i=1}^mp(y^{(i)}|x^{(i)};\theta)=log\displaystyle\prod_{i=1}^m\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}}$
展开化简：
$∑i=1mlog(12πσe−(y(i)−θTx(i))22σ2)\displaystyle\sum_{i=1}^mlog(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}})$
$=mlog12πσ−1σ2.12∑i=1m(y(i)−θTx(i))2)=mlog\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{\sigma^2}.\frac{1}{2}\displaystyle\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2)$
目标：让似然函数（对数似然函数）值越大越好,因此目标函数 $J(θ)J(\theta)$ 的值要越小越好

目标函数

$J(θ)=12∑i=1m(y(i)−θTx(i))2)J(\theta)=\frac{1}{2}\displaystyle\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2)$
$J(θ)=12∑i=1m(y(i)−θTx(i))2)J(\theta)=\frac{1}{2}\displaystyle\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2)$
$=12∑i=1m(y(i)−hθ(x(i)))2=\frac{1}{2}\displaystyle\sum_{i=1}^m(y^{(i)}-h_\theta(x^{(i)}))^2$
$=12(Xθ−y)T(Xθ−y)=\frac{1}{2}(X\theta-y)^T(X\theta-y)$

对 $J(θ)J(\theta)$ 求偏导，令偏导为0，得 $θ=(XTX)−1XTy\theta=(X^TX)^{-1}X^Ty$

评估方法

最常用的评估项 $R^2$ :
$R2=1−∑i=1m(yi^−yi)2∑i=1m(yi−yˉ)2R^2=1-\frac{\displaystyle\sum_{i=1}^m(\hat{y_i}-y_i)^2}{\displaystyle\sum_{i=1}^m(y_i-\bar{y})^2}$
残差平方和： $∑i=1m(yi^−yi)2\displaystyle\sum_{i=1}^m(\hat{y_i}-y_i)^2$
方差： $∑i=1m(yi−yˉ)2\displaystyle\sum_{i=1}^m(y_i-\bar{y})^2$
当 $R^2$ 越接近1，我们认为模型拟合效果越好

3、梯度下降

当引入了目标函数 $J(θ)J(\theta)$ 之后，如何进行求解，不是每次都可以直接求解的（线性回归可直接求目标函数的偏导为0是特例）
梯度下降是一种寻找目标函数最小化的方法。
目标函数为：
$J(θ)=12∑i=1m(y(i)−θTx(i))2)J(\theta)=\frac{1}{2}\displaystyle\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2)$
$θi=θi−α∂∂θiJ(θ)\theta_i = \theta_i - \alpha\frac{\partial}{ \partial\theta_i}J(\theta)$
$α\alpha$ :学习率，会对结果产生很大影响，一般设置较小

图片来源于：https://www.jianshu.com/p/93d9fea7f4c2

从数学的角度看，梯度的方向是函数增长最快的方向，梯度的反方向就是函数减小最快的方向。
越接近最优解的时候，步长越小。因为这个向量等于 $αi\alpha_i$ 与偏导数的乘积，虽然 $αi\alpha_i$ 始终是一个定值，但是越接近最值的时候，这个坡度就会越缓，从而导数的值就越小，也就是乘积变小了，这就是看到步长变小的缘故。