最小二乘法
一、“最小二乘”命名的由来
最小二乘法是基于均方差最小化进行模型求解的方法,他试图找到一条直线,使所有样本到直线上的欧式距离之和最小。
- 所谓的均方差最小化,用公式表达如下:
J=argmin∑i=1m(f(xi)−yi)2J=argmin\sum_{i=1}^{m}(f(x_i)-y_i)^2J=argmin∑i=1m(f(xi)−yi)2
其中,yiy_iyi是精确值,由f(xi)f(x_i)f(xi)求得的yyy是估计值 - 最小二乘法中的二乘是平方的意思,所以最小二乘法又可叫最小平方法
二、公式推导
最小二乘法的本质思想是使均方差最小,从而求得真值,即∑i=1m(y−yi)2最小⇒真值y\sum_{i=1}^{m}(y-y_i)^2最小\Rightarrow 真值yi=1∑m(y−yi)2最小⇒真值y这是一个二次函数,对其求导,导数为0时取得最小值:令ddy∑i=1m(y−yi)2=0⇒y令\frac {d} {dy}\sum_{i=1}^{m}(y-y_i)^2=0\Rightarrow y令dydi=1∑m(y−yi)2=0⇒y
三、线性回归
说到最小二乘法,就不得不说一下机器学习中的线性回归了。因为在线性回归中,我们用“最小二乘法”来拟合曲线。
讲到线性回归,就要说一下线性模型(因为线性回归中“回归”的就是线性模型)。线性模型的基本形式如下:f(x)=wTx+bf(x)=w^Tx+bf(x)=wTx+b我们用最小二乘法来求解线性回归问题实际上就是求解出线性模型公式中的参数w,bw,bw,b
线性回归又分单元线性回归和多元线性回归。接下来将分别讲到这两种线性回归。
- 单元线性回归
数据集D中有m个样本,每个样本只有1个属性
(1)如何确定w,bw,bw,b:(w∗,b∗)=argmin(w,b)∑i=1m(f(xi)−yi)2(w^*,b^*)=argmin_{(w,b)}\sum_{i=1}^{m}(f(x_i)-y_i)^2(w∗,b∗)=argmin(w,b)i=1∑m(f(xi)−yi)2思路:使得均方误差(欧式距离)最小
基于均方差最小化进行模型求解的方法:最小二乘法(试图找到一条直线,使所有样本到直线上的欧式距离之和最小)
(2)最小二乘法具体做法:ddw∑i=1m(yi−wxi−b)2=0⇒w\frac {d} {dw}\sum_{i=1}^{m}(y_i-wx_i-b)^2=0\Rightarrow wdwdi=1∑m(yi−wxi−b)2=0⇒wddb∑i=1m(yi−wxi−b)2=0⇒b\frac {d} {db}\sum_{i=1}^{m}(y_i-wx_i-b)^2=0\Rightarrow bdbdi=1∑m(yi−wxi−b)2=0⇒b - 多元线性回归
数据集D中有m个样本,每个样本都有d个属性f(xi)=wTxi+bf(x_i)=w^Tx_i+bf(xi)=wTxi+b 令X=(x11x12⋯x1d1x21x22⋯x2d1⋮⋮⋱⋮xm1xm2⋯xmd1)=(x1T1x2T1⋮⋮xmT1),w^=(wb),y=(y1y2⋮ym) 令X=\left( \begin{matrix} x_{11} & x_{12} & \cdots & x_{1d} & 1 \\ x_{21} & x_{22} & \cdots & x_{2d} & 1 \\ \vdots & \vdots & \ddots & \vdots \\ x_{m1} & x_{m2} & \cdots & x_{md} & 1 \\ \end{matrix} \right) =\left( \begin{matrix} x_1^T & 1 \\ x_2^T & 1 \\ \vdots & \vdots \\ x_m^T & 1 \\ \end{matrix} \right) , \hat{w}=\left( \begin{matrix} w \\ b \\ \end{matrix} \right) , y=\left( \begin{matrix} y_1 \\ y_2 \\ \vdots \\ y_m \\ \end{matrix} \right) 令X=⎝⎜⎜⎜⎛x11x21⋮xm1x12x22⋮xm2⋯⋯⋱⋯x1dx2d⋮xmd111⎠⎟⎟⎟⎞=⎝⎜⎜⎜⎛x1Tx2T⋮xmT11⋮1⎠⎟⎟⎟⎞,w^=(wb),y=⎝⎜⎜⎜⎛y1y2⋮ym⎠⎟⎟⎟⎞则y=Xw^y=X\hat{w}y=Xw^
(1)如何确定w^\hat{w}w^:w^=argminw^(y−Xw^)T(y−Xw^)\hat{w}=argmin_{\hat{w}}(y-X\hat{w})^T(y-X\hat{w})w^=argminw^(y−Xw^)T(y−Xw^)
(2)最小二乘法的具体做法:
令dEw^dw^=2XT(Xw^−y)=0令\frac {dE_{\hat{w}}} {d\hat{w}}=2X^T(X\hat{w}-y)=0令dw^dEw^=2XT(Xw^−y)=0
⇒w∗^=(XTX)−1XTy\Rightarrow \hat{w*}=(X^TX)^{-1}X^Ty⇒w∗^=(XTX)−1XTy