最小二乘法及其几何意义
最小二乘法介绍
最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小 。
最小二乘法还可用于曲线拟合,其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。
假设有N个样本点X=(x1,x2,…,xN)TX=(x_1, x_2, \dots, x_N)^TX=(x1,x2,…,xN)T, xix_ixi是ppp维向量, 相应的观测数据Y=(y1,y2,…,yN)TY=(y_1, y_2, \dots, y_N)^TY=(y1,y2,…,yN)T,则我们需要通过这N个样本点来拟合出一个线性函数y=wTxy=w^Txy=wTx,构建损失函数L(w)=∑i=1N∣∣yi−wTxi∣∣2L(w)=\sum_{i=1}^N||y_i-w^Tx_i||^2L(w)=∑i=1N∣∣yi−wTxi∣∣2,也就是要拟合出权重参数www使得损失函数L(w)L(w)L(w)达到最小。
简化
L(w)=(y1−wTx1y2−wTx2…yN−wTxN)(y1−wTx1y2−wTx2⋮yN−wTxN)=(YT−wTXT)(Y−Xw)=YTY−wTXTY−YTXw+wTXTXw(wTXTY和YTXw是秩一矩阵,相等)=YTY−2wTXTY+wTXTXw\begin{aligned}L(w)&=\begin{pmatrix}y_1-w^Tx_1 & y_2-w^Tx_2 & \dots & y_N-w^Tx_N\end{pmatrix}\begin{pmatrix}y_1-w^Tx_1 \\ y_2-w^Tx_2 \\ \vdots \\ y_N-w^Tx_N\end{pmatrix}\\
&=(Y^T-w^TX^T)(Y-Xw)\\
&=Y^TY-w^TX^TY-Y^TXw+w^TX^TXw(w^TX^TY和Y^TXw是秩一矩阵,相等)\\
&=Y^TY-2w^TX^TY+w^TX^TXw\end{aligned}L(w)=(y1−wTx1y2−wTx2…yN−wTxN)⎝⎜⎜⎜⎛y1−wTx1y2−wTx2⋮yN−wTxN⎠⎟⎟⎟⎞=(YT−wTXT)(Y−Xw)=YTY−wTXTY−YTXw+wTXTXw(wTXTY和YTXw是秩一矩阵,相等)=YTY−2wTXTY+wTXTXw
所以,
∂L(w)∂w=2XTXw−2XTY=0\begin{aligned}\frac{\partial L(w)}{\partial w}
&=2X^TXw-2X^TY=0
\end{aligned}∂w∂L(w)=2XTXw−2XTY=0
由此便得到w=(XTX)−1XTYw=(X^TX)^{-1}X^TYw=(XTX)−1XTY,其中(XTX)−1XT(X^TX)^{-1}X^T(XTX)−1XT称为XXX的伪逆。
最小二乘法的几何意义
这部分内容仅供辅助理解,因为f(x)=wTx=xTβf(x) = w^Tx = x^T\betaf(x)=wTx=xTβ(此时xxx是单个样本,p∗1p*1p∗1维的列向量),所以Y−XβY-X\betaY−Xβ(这里的XXX是数据矩阵)应该垂直于XXX空间里的所有向量,即XT(Y−Xβ)=0X^T(Y-X\beta)=0XT(Y−Xβ)=0,所以β=(XTX)−1XT\beta=(X^TX)^{-1}X^Tβ=(XTX)−1XT,得到了从代数角度出发同样的结果(ps:因为wTxw^TxwTx和xTβx^T\betaxTβ是一个实数,所以xTβ=βTxx^T\beta=\beta ^T xxTβ=βTx)
最小二乘法和极大似然估计的联系
先做一个假设,假设f(x)=wTx+ϵf(x)=w^Tx+\epsilonf(x)=wTx+ϵ, ϵ∼N(0,σ2)\epsilon \sim N(0, \sigma ^2)ϵ∼N(0,σ2),所以f(x)∼N(wTx,σ2)f(x) \sim N(w^Tx, \sigma ^2)f(x)∼N(wTx,σ2)。
所以利用极大似然有
w=argmaxw∏i=1p(yi∣xi;w)=argmaxw∑i=1log(p(yi∣xi;w))=argmaxw∑i=1[−log2πσ−∥yi−wTxi∥22σ2]=argminw∑i=1[log2πσ+∥yi−wTxi∥22σ2]=argminw∥yi−wTxi∥2\begin{aligned}
w &= \underset{w}{argmax}\prod_{i=1}p(y_i|x_i;w) \\
&= \underset{w}{argmax}\sum_{i=1}\log (p(y_i|x_i;w)) \\
&= \underset{w}{argmax} \sum_{i=1}[-\log \sqrt{2\pi}\sigma - \frac{\|y_i-w^Tx_i\|^2}{2\sigma ^2}] \\
&= \underset{w}{argmin}\sum_{i=1}[\log \sqrt{2\pi}\sigma + \frac{\|y_i-w^Tx_i\|^2}{2\sigma ^2}] \\
&= \underset{w}{argmin}\|y_i-w^Tx_i\|^2
\end{aligned}w=wargmaxi=1∏p(yi∣xi;w)=wargmaxi=1∑log(p(yi∣xi;w))=wargmaxi=1∑[−log2πσ−2σ2∥yi−wTxi∥2]=wargmini=1∑[log2πσ+2σ2∥yi−wTxi∥2]=wargmin∥yi−wTxi∥2
这样就得到了与前面一致的结论,所以我们可以说最小二乘法是相当于用极大似然估计求噪声为高斯分布的的线性模型。