最小二乘法 ——白板推导系列(第三节)

本文详细介绍了最小二乘法,这是一种数学优化技术,用于找到最佳函数匹配,使误差平方和最小。内容涵盖最小二乘法的理论、几何意义以及与极大似然估计的联系。在曲线拟合中,通过最小化损失函数来确定权重参数,最终公式为w=(XTX)−1XTY。此外,还讨论了当误差符合高斯分布时,最小二乘法与极大似然估计的关系。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最小二乘法及其几何意义

最小二乘法介绍

最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小 。
最小二乘法还可用于曲线拟合,其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。
假设有N个样本点X=(x1,x2,…,xN)TX=(x_1, x_2, \dots, x_N)^TX=(x1,x2,,xN)T, xix_ixippp维向量, 相应的观测数据Y=(y1,y2,…,yN)TY=(y_1, y_2, \dots, y_N)^TY=(y1,y2,,yN)T,则我们需要通过这N个样本点来拟合出一个线性函数y=wTxy=w^Txy=wTx,构建损失函数L(w)=∑i=1N∣∣yi−wTxi∣∣2L(w)=\sum_{i=1}^N||y_i-w^Tx_i||^2L(w)=i=1NyiwTxi2,也就是要拟合出权重参数www使得损失函数L(w)L(w)L(w)达到最小。
简化
L(w)=(y1−wTx1y2−wTx2…yN−wTxN)(y1−wTx1y2−wTx2⋮yN−wTxN)=(YT−wTXT)(Y−Xw)=YTY−wTXTY−YTXw+wTXTXw(wTXTY和YTXw是秩一矩阵,相等)=YTY−2wTXTY+wTXTXw\begin{aligned}L(w)&=\begin{pmatrix}y_1-w^Tx_1 & y_2-w^Tx_2 & \dots & y_N-w^Tx_N\end{pmatrix}\begin{pmatrix}y_1-w^Tx_1 \\ y_2-w^Tx_2 \\ \vdots \\ y_N-w^Tx_N\end{pmatrix}\\ &=(Y^T-w^TX^T)(Y-Xw)\\ &=Y^TY-w^TX^TY-Y^TXw+w^TX^TXw(w^TX^TY和Y^TXw是秩一矩阵,相等)\\ &=Y^TY-2w^TX^TY+w^TX^TXw\end{aligned}L(w)=(y1wTx1y2wTx2yNwTxN)y1wTx1y2wTx2yNwTxN=(YTwTXT)(YXw)=YTYwTXTYYTXw+wTXTXw(wTXTYYTXw)=YTY2wTXTY+wTXTXw
所以,
∂L(w)∂w=2XTXw−2XTY=0\begin{aligned}\frac{\partial L(w)}{\partial w} &=2X^TXw-2X^TY=0 \end{aligned}wL(w)=2XTXw2XTY=0
由此便得到w=(XTX)−1XTYw=(X^TX)^{-1}X^TYw=(XTX)1XTY,其中(XTX)−1XT(X^TX)^{-1}X^T(XTX)1XT称为XXX的伪逆。

最小二乘法的几何意义

  这部分内容仅供辅助理解,因为f(x)=wTx=xTβf(x) = w^Tx = x^T\betaf(x)=wTx=xTβ(此时xxx是单个样本,p∗1p*1p1维的列向量),所以Y−XβY-X\betaYXβ(这里的XXX是数据矩阵)应该垂直于XXX空间里的所有向量,即XT(Y−Xβ)=0X^T(Y-X\beta)=0XT(YXβ)=0,所以β=(XTX)−1XT\beta=(X^TX)^{-1}X^Tβ=(XTX)1XT,得到了从代数角度出发同样的结果(ps:因为wTxw^TxwTxxTβx^T\betaxTβ是一个实数,所以xTβ=βTxx^T\beta=\beta ^T xxTβ=βTx

最小二乘法和极大似然估计的联系

先做一个假设,假设f(x)=wTx+ϵf(x)=w^Tx+\epsilonf(x)=wTx+ϵ, ϵ∼N(0,σ2)\epsilon \sim N(0, \sigma ^2)ϵN(0,σ2),所以f(x)∼N(wTx,σ2)f(x) \sim N(w^Tx, \sigma ^2)f(x)N(wTx,σ2)
所以利用极大似然有
w=argmaxw∏i=1p(yi∣xi;w)=argmaxw∑i=1log⁡(p(yi∣xi;w))=argmaxw∑i=1[−log⁡2πσ−∥yi−wTxi∥22σ2]=argminw∑i=1[log⁡2πσ+∥yi−wTxi∥22σ2]=argminw∥yi−wTxi∥2\begin{aligned} w &= \underset{w}{argmax}\prod_{i=1}p(y_i|x_i;w) \\ &= \underset{w}{argmax}\sum_{i=1}\log (p(y_i|x_i;w)) \\ &= \underset{w}{argmax} \sum_{i=1}[-\log \sqrt{2\pi}\sigma - \frac{\|y_i-w^Tx_i\|^2}{2\sigma ^2}] \\ &= \underset{w}{argmin}\sum_{i=1}[\log \sqrt{2\pi}\sigma + \frac{\|y_i-w^Tx_i\|^2}{2\sigma ^2}] \\ &= \underset{w}{argmin}\|y_i-w^Tx_i\|^2 \end{aligned}w=wargmaxi=1p(yixi;w)=wargmaxi=1log(p(yixi;w))=wargmaxi=1[log2πσ2σ2yiwTxi2]=wargmini=1[log2πσ+2σ2yiwTxi2]=wargminyiwTxi2
这样就得到了与前面一致的结论,所以我们可以说最小二乘法是相当于用极大似然估计求噪声为高斯分布的的线性模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值