最小二乘法 ——白板推导系列（第三节）

最新推荐文章于 2024-06-01 14:04:00 发布

回想sy

最新推荐文章于 2024-06-01 14:04:00 发布

阅读量276

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：概率论线性代数机器学习

本文链接：https://blog.youkuaiyun.com/weixin_49708196/article/details/120034186

机器学习专栏收录该内容

13 篇文章

订阅专栏

本文详细介绍了最小二乘法，这是一种数学优化技术，用于找到最佳函数匹配，使误差平方和最小。内容涵盖最小二乘法的理论、几何意义以及与极大似然估计的联系。在曲线拟合中，通过最小化损失函数来确定权重参数，最终公式为w=(XTX)−1XTY。此外，还讨论了当误差符合高斯分布时，最小二乘法与极大似然估计的关系。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最小二乘法及其几何意义

最小二乘法介绍

最小二乘法（又称最小平方法）是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。
最小二乘法还可用于曲线拟合，其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。
假设有N个样本点 $X=(x1,x2,…,xN)TX=(x_1, x_2, \dots, x_N)^T$ , $x_i$ 是 $p$ 维向量, 相应的观测数据 $Y=(y1,y2,…,yN)TY=(y_1, y_2, \dots, y_N)^T$ ，则我们需要通过这N个样本点来拟合出一个线性函数 $y=w^Tx$ ,构建损失函数 $L(w)=∑i=1N∣∣yi−wTxi∣∣2L(w)=\sum_{i=1}^N||y_i-w^Tx_i||^2$ ，也就是要拟合出权重参数 $w$ 使得损失函数 $L (w)$ 达到最小。
简化
$L(w)=(y1−wTx1y2−wTx2…yN−wTxN)(y1−wTx1y2−wTx2⋮yN−wTxN)=(YT−wTXT)(Y−Xw)=YTY−wTXTY−YTXw+wTXTXw(wTXTY和YTXw是秩一矩阵，相等)=YTY−2wTXTY+wTXTXw\begin{aligned}L(w)&=\begin{pmatrix}y_1-w^Tx_1 & y_2-w^Tx_2 & \dots & y_N-w^Tx_N\end{pmatrix}\begin{pmatrix}y_1-w^Tx_1 \\ y_2-w^Tx_2 \\ \vdots \\ y_N-w^Tx_N\end{pmatrix}\\ &=(Y^T-w^TX^T)(Y-Xw)\\ &=Y^TY-w^TX^TY-Y^TXw+w^TX^TXw(w^TX^TY和Y^TXw是秩一矩阵，相等)\\ &=Y^TY-2w^TX^TY+w^TX^TXw\end{aligned}$
所以，
$∂L(w)∂w=2XTXw−2XTY=0\begin{aligned}\frac{\partial L(w)}{\partial w} &=2X^TXw-2X^TY=0 \end{aligned}$
由此便得到 $w=(X^TX)^{-1}X^TY$ ,其中 $X^TX)^{-1}X^T$ 称为 $X$ 的伪逆。

最小二乘法的几何意义

这部分内容仅供辅助理解，因为 $w^Tx = x^T\beta$ (此时 $x$ 是单个样本， $p * 1$ 维的列向量)，所以 $Y−XβY-X\beta$ （这里的 $X$ 是数据矩阵）应该垂直于 $X$ 空间里的所有向量,即 $XT(Y−Xβ)=0X^T(Y-X\beta)=0$ ，所以 $β=(XTX)−1XT\beta=(X^TX)^{-1}X^T$ ,得到了从代数角度出发同样的结果（ps：因为 $w^Tx$ 和 $xTβx^T\beta$ 是一个实数，所以 $xTβ=βTxx^T\beta=\beta ^T x$ ）

最小二乘法和极大似然估计的联系

先做一个假设，假设 $f(x)=wTx+ϵf(x)=w^Tx+\epsilon$ , $ϵ∼N(0,σ2)\epsilon \sim N(0, \sigma ^2)$ ,所以 $\sim N(w^Tx, \sigma ^2)$ 。
所以利用极大似然有
$w=argmaxw∏i=1p(yi∣xi;w)=argmaxw∑i=1log⁡(p(yi∣xi;w))=argmaxw∑i=1[−log⁡2πσ−∥yi−wTxi∥22σ2]=argminw∑i=1[log⁡2πσ+∥yi−wTxi∥22σ2]=argminw∥yi−wTxi∥2\begin{aligned} w &= \underset{w}{argmax}\prod_{i=1}p(y_i|x_i;w) \\ &= \underset{w}{argmax}\sum_{i=1}\log (p(y_i|x_i;w)) \\ &= \underset{w}{argmax} \sum_{i=1}[-\log \sqrt{2\pi}\sigma - \frac{\|y_i-w^Tx_i\|^2}{2\sigma ^2}] \\ &= \underset{w}{argmin}\sum_{i=1}[\log \sqrt{2\pi}\sigma + \frac{\|y_i-w^Tx_i\|^2}{2\sigma ^2}] \\ &= \underset{w}{argmin}\|y_i-w^Tx_i\|^2 \end{aligned}$
这样就得到了与前面一致的结论，所以我们可以说最小二乘法是相当于用极大似然估计求噪声为高斯分布的的线性模型。