机器学习笔记之---------线性回归_机器学习线性回归知乎-优快云博客

本文链接：https://blog.youkuaiyun.com/u011878435/article/details/80464803

线性回归是机器学习中比较基础的一个算法，对于机器学习方法来说，我把它记为以下三步：

	 1. 建立模型
   	 2. 目标函数推导
   	 3. 参数优化求解

模型

由线性函数 $y = a x + b$ ，推广到多维情况，模型记为： $h=\theta^{T}x$ ，θ是m维的向量，x为m*n，即有m个样本，每个样本有n个特征。但，其实，对每个样本： $y^{(i)}=θ^{T}x^{(i)}+ε^{(i)}$ ，其中ε(i)是误差，即：真实值=预测值+误差。

目标函数推导

有了模型 $h=\theta^{T}x$ 剩下的就是通过样本来估计出参数θ，推导如下：
从误差入手，由中心极限定理可假设误差ε服从高斯分布N(0,δ)，即： $p(ε^{(i)})=\frac{1}{{\sqrt{2\pi}δ}}exp^{(-\frac{(ε^{(i)})^2}{2δ^2})}$ 由于误差=真实值-预测值，故有： $p(ε^{(i)})=\frac{1}{{\sqrt{2\pi}δ}}exp^{(-\frac{(y^{(i)}-θ^{T}x^{(i)})^2}{2δ^2})}=p(\left. y^{(i)} \right|x^{(i)};θ)$ ，即：确定θ，给定一个x(i)，y(i)的概率密度函数是多少。只看第二个等式，x、y可从样本获得，即可以估计出θ的值，用最大似然估计，有： $L(\theta)=\prod_{i=0}^m p(\left. y^{(i)} \right|x^{(i)};θ) =\prod_{i=0}^m \frac{1}{{\sqrt{2\pi}δ}}exp^{(-\frac{(y^{(i)}-θ^{T}x^{(i)})^2}{2δ^2})}$ 两边取对数有：
$\begin{aligned} l(θ)= \log L(\theta)&=\log \prod_{i=0}^m \frac{1}{{\sqrt{2\pi}δ}}exp^{(-\frac{(y^{(i)}-θ^{T}x^{(i)})^2}{2δ^2})} \\ &=\sum_{i=0}^m \log\frac{1}{{\sqrt{2\pi}δ}}exp^{(-\frac{(y^{(i)}-θ^{T}x^{(i)})^2}{2δ^2})} \\&=m\log \frac{1}{{\sqrt{2\pi}δ}} - \frac{1}{δ^2}\frac{1}{2}\sum_{i=1}^m {{(y^{(i)}-θ^{T}x^{(i)})^2}} \end{aligned}$ ，我们的目标是最大化l(θ)，但后面式子可以看出，只有后面的加和项与θ有关，记目标函数 $J(θ)=\frac{1}{2}\sum_{i=1}^m {{(y^{(i)}-θ^{T}x^{(i)})^2}}$ ，这也是最小二乘的一个推导，故 $\max_{θ}l(θ)=\min_{θ} \frac{1}{2} \sum_{i=1}^m {{(y^{(i)}-θ^{T}x^{(i)})^2}}=\min_{θ}J(θ)$

求解参数

现在有了优化目标函数 $J(θ)=\frac{1}{2}\sum_{i=1}^m {{(y^{(i)}-θ^{T}x^{(i)})^2}}$ 那么如何求得θ得最优解呢？
对整个样本来看，换一种写法
$\begin{aligned} J(θ)&=\frac{1}{2}\sum_{i=1}^m {{(y^{(i)}-θ^{T}x^{(i)})^2}}= \frac{1}{2} {{(θ^{T}X-Y)^2}} \\ &=\frac{1}{2}{{(θ^{T}X-Y)^T}}{{(θ^{T}X-Y)}} \\ &=\frac{1}{2}(θ^TX^TXθ-Y^TXθ-θ^TX^TY+Y^TY) \\ \end{aligned}$ 求导令值等于0，即令： $\nabla J(θ)=X^TXθ-X^TY=0$
得 $X^TXθ=X^TY$ 若X^TX可逆，则 $θ=(X^TX)^{-1}X^TY$ 若X^TX不可逆或为防止过拟合则 $θ=(X^TX-\lambda I)^{-1}X^TY$ λ取值很小。

上面是直接求解θ，很多时候直接求解并不散那么好计算，实际上一般都采用优化迭代的思想来求解θ。
同样的从目标函数入手： $J(θ)=\frac{1}{2}\sum_{i=1}^m {{(y^{(i)}-θ^{T}x^{(i)})^2}}$ J(θ)对第j个θ求梯度，有：
$\begin{aligned} \frac {\nabla J(θ)}{\nablaθ_j} &=\frac {\nabla }{\nablaθ_j} \frac{1}{2} (h_θ(x)-y)^2=(h_θ(x)-y)\frac {\nabla }{\nablaθ_j} (h_θ(x)-y) \\ &=(h_θ(x)-y)\frac {\nabla }{\nablaθ_j} (\sum_{i=1}^m h_{θ_j}(x_{j}^i)-y^i) \\ &=(h_θ(x)-y)x_{j} \end{aligned}$ 故由梯度下降算法得到更新规则： $θ_j :=θ_j-\alpha \sum_{i=1}^m (h_{θ}(x^i)-y^i))x_j$ 这个公式需要m各样本一起，数据大，一般设置mini batch为k，将m化为多份，每份有k样本，用以下更新规则： $θ_j :=θ_j-\alpha \sum_{i=1}^k (h_{θ}(x^i)-y^i))x_j$