线性回归中 LSE MLE MAP之间的关系

本文介绍了MLE、MAP和LSE三种参数估计方法,并详细解释了L2正则化的原理及应用。通过对比分析,揭示了这些方法之间的内在联系。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

记目标方程为f(X)=w⊤X{f(X) = w^\top X}f(X)=wX,其中w{w}wP{P}P维向量,X{X}X为大小为N×P{N\times P}N×P的矩阵
xi{x_i}xi对应的真实值为yi{y_i}yi


一、MLE

  MLE(Maximum Likelihood Estimate),也叫极大似然估计,是频率学派中的一种参数估计方法。其主要思想为,通过最大化X{X}X的对数似然函数,得到使当前X{X}X取到真实值的概率最大的参数w{w}w。其公式如下:
w^=arg⁡max⁡lnP(X∣w). {\hat{w} = \arg\max lnP(X|w)}. w^=argmaxlnP(Xw).


二、MAP

  MAP(Maximum A Posteriori Estimation),也叫极大后验估计,是贝叶斯学派中的一种参数估计方法。该方法基于贝叶斯公式:
P(w∣X)=P(X∣w)⋅P(w)P(X), {P(w|X) = \frac{P(X|w)\cdot P(w)}{P(X)}}, P(wX)=P(X)P(Xw)P(w),其中P(w){P(w)}P(w)为先验概率,P(w∣X){P(w|X)}P(wX)为后验概率,P(X∣w){P(X|w)}P(Xw)为似然。极大后验估计即为通过最大化X{X}X的后验概率,得到最优的参数w{w}w。其公式如下:
w^=arg⁡max⁡P(w∣X). {\hat{w} = \arg\max P(w|X)}. w^=argmaxP(wX).由贝叶斯公式可得,
P(w∣X)∝P(X∣w)⋅P(w), {P(w|X) \propto P(X|w)\cdot P(w)}, P(wX)P(Xw)P(w),所以上述公式又可以写成
w^=arg⁡max⁡P(X∣w)⋅P(w). {\hat{w} = \arg\max P(X|w)\cdot P(w)}. w^=argmaxP(Xw)P(w).  由最大后验估计的公式可以看出,它并没有算出P(w∣X){P(w|X)}P(wX),所以并没有得到X{X}X的生成模型,这就是最大后验估计与贝叶斯估计的区别。


三、LSE

  LSE(Least Square Estimation),也叫最小二乘估计。其公式如下:
L(w)=12∑i=1n(w⊤xi−yi)2=w⊤X⊤−Y⊤, {L(w) = \frac{1}{2} \sum_{i=1}^{n} (w^\top x_i-y_i)^2 = w^\top X^\top-Y^\top}, L(w)=21i=1n(wxiyi)2=wXY,w^=arg⁡min⁡L(w). {\hat{w} = \arg\min L(w)}. w^=argminL(w).这里的12{\frac{1}{2}}21是为了微分时消去不必要的参数。
  根据该公式,对矩阵微分可得,w^{\hat{w}}w^的解析解为:
w^=(X⊤X)−1X⊤Y. {\hat{w} = (X^\top X)^{-1}X^\top Y}. w^=(XX)1XY.  但其中的X⊤X{X^\top X}XX项并不一定可逆。例如当特征空间的维度大于样本数时,我们无法通过少量的样本来拟合出目标函数,这就会导致过拟合。解决方法通常为降维和正则化,接下来主要介绍正则化。
  正则化指的是在损失函数L(w){L(w)}L(w)中添加一个正则化项(也叫正则罚项或惩罚项)。常用的正则化项有L1{L_1}L1范数和L2{L_2}L2范数,分别对应Lasso{Lasso}Lasso回归和Ridge{Ridge}Ridge回归。这里主要介绍L2{L_2}L2正则。
  L2{L_2}L2范数的公式为
∣∣w∣∣2=∑i=1nwi2=w⊤w, {||w||_2 = \sqrt{\sum_{i=1}^{n}w_i^2} = \sqrt{w^\top w}}, w2=i=1nwi2=ww,这里使用∣∣w∣∣22{||w||_2^2}w22作为正则化项,则添加L2{L_2}L2正则后的损失函数为
L(w)=12∑i=1n(w⊤xi−yi)2+λw⊤w=(X⊤X+λI)−1X⊤Y. {L(w) = \frac{1}{2} \sum_{i=1}^{n} (w^\top x_i-y_i)^2 + \lambda w^\top w = (X^\top X + \lambda I)^{-1}X^\top Y}. L(w)=21i=1n(wxiyi)2+λww=(XX+λI)1XY.  不难看出,X⊤X{X^\top X}XX为半正定矩阵,λI{\lambda I}λI为单位矩阵,相加后为正定矩阵,一定可逆,所以我们就通过给损失函数添加L2{L_2}L2正则解决了过拟合的问题。


四、关系

  将样本真实值视作预测值加一定程度的噪声ε{\varepsilon}ε,即
yi=f(xi)+ε. {y_i = f(x_i) + \varepsilon}. yi=f(xi)+ε.
  若假设ε∼N(0,σ12){\varepsilon \sim N(0,\sigma_1^2)}εN(0,σ12),则MLE的公式可化为
w^=arg⁡min⁡12∑i=1n(yi−w⊤xi)2, {\hat{w} = \arg\min\frac{1}{2} \sum_{i=1}^{n} (y_i-w^\top x_i)^2}, w^=argmin21i=1n(yiwxi)2,与LSE的公式完全相同。由此可得,不添加正则化项时,LSE即为噪声服从高斯分布时的MLE
  若假设w∼N(0,σ22){w \sim N(0,\sigma_2^2)}wN(0,σ22),则MAP公式可化为
w^=arg⁡min⁡ ∑i=1n(yi−w⊤xi)2+σ12σ22∣∣w∣∣22, {\hat{w} = \arg\min\ \sum_{i=1}^{n} (y_i-w^\top x_i)^2 + \frac{\sigma_1^2}{\sigma_2^2}||w||_2^2}, w^=argmin i=1n(yiwxi)2+σ22σ12w22,与LSE的公式完全相同,其中λ=σ12σ22{\lambda = \frac{\sigma_1^2}{\sigma_2^2}}λ=σ22σ12。由此可得,添加正则化项时,LSE即为噪声和w{w}w均服从高斯分布时的MAP


参考:https://www.bilibili.com/video/av31989606

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

SoCalledHBY

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值