记目标方程为f(X)=w⊤X{f(X) = w^\top X}f(X)=w⊤X,其中w{w}w为P{P}P维向量,X{X}X为大小为N×P{N\times P}N×P的矩阵
xi{x_i}xi对应的真实值为yi{y_i}yi
一、MLE
MLE(Maximum Likelihood Estimate),也叫极大似然估计,是频率学派中的一种参数估计方法。其主要思想为,通过最大化X{X}X的对数似然函数,得到使当前X{X}X取到真实值的概率最大的参数w{w}w。其公式如下:
w^=argmaxlnP(X∣w).
{\hat{w} = \arg\max lnP(X|w)}.
w^=argmaxlnP(X∣w).
二、MAP
MAP(Maximum A Posteriori Estimation),也叫极大后验估计,是贝叶斯学派中的一种参数估计方法。该方法基于贝叶斯公式:
P(w∣X)=P(X∣w)⋅P(w)P(X),
{P(w|X) = \frac{P(X|w)\cdot P(w)}{P(X)}},
P(w∣X)=P(X)P(X∣w)⋅P(w),其中P(w){P(w)}P(w)为先验概率,P(w∣X){P(w|X)}P(w∣X)为后验概率,P(X∣w){P(X|w)}P(X∣w)为似然。极大后验估计即为通过最大化X{X}X的后验概率,得到最优的参数w{w}w。其公式如下:
w^=argmaxP(w∣X).
{\hat{w} = \arg\max P(w|X)}.
w^=argmaxP(w∣X).由贝叶斯公式可得,
P(w∣X)∝P(X∣w)⋅P(w),
{P(w|X) \propto P(X|w)\cdot P(w)},
P(w∣X)∝P(X∣w)⋅P(w),所以上述公式又可以写成
w^=argmaxP(X∣w)⋅P(w).
{\hat{w} = \arg\max P(X|w)\cdot P(w)}.
w^=argmaxP(X∣w)⋅P(w). 由最大后验估计的公式可以看出,它并没有算出P(w∣X){P(w|X)}P(w∣X),所以并没有得到X{X}X的生成模型,这就是最大后验估计与贝叶斯估计的区别。
三、LSE
LSE(Least Square Estimation),也叫最小二乘估计。其公式如下:
L(w)=12∑i=1n(w⊤xi−yi)2=w⊤X⊤−Y⊤,
{L(w) = \frac{1}{2} \sum_{i=1}^{n} (w^\top x_i-y_i)^2 = w^\top X^\top-Y^\top},
L(w)=21i=1∑n(w⊤xi−yi)2=w⊤X⊤−Y⊤,w^=argminL(w).
{\hat{w} = \arg\min L(w)}.
w^=argminL(w).这里的12{\frac{1}{2}}21是为了微分时消去不必要的参数。
根据该公式,对矩阵微分可得,w^{\hat{w}}w^的解析解为:
w^=(X⊤X)−1X⊤Y.
{\hat{w} = (X^\top X)^{-1}X^\top Y}.
w^=(X⊤X)−1X⊤Y. 但其中的X⊤X{X^\top X}X⊤X项并不一定可逆。例如当特征空间的维度大于样本数时,我们无法通过少量的样本来拟合出目标函数,这就会导致过拟合。解决方法通常为降维和正则化,接下来主要介绍正则化。
正则化指的是在损失函数L(w){L(w)}L(w)中添加一个正则化项(也叫正则罚项或惩罚项)。常用的正则化项有L1{L_1}L1范数和L2{L_2}L2范数,分别对应Lasso{Lasso}Lasso回归和Ridge{Ridge}Ridge回归。这里主要介绍L2{L_2}L2正则。
L2{L_2}L2范数的公式为
∣∣w∣∣2=∑i=1nwi2=w⊤w,
{||w||_2 = \sqrt{\sum_{i=1}^{n}w_i^2} = \sqrt{w^\top w}},
∣∣w∣∣2=i=1∑nwi2=w⊤w,这里使用∣∣w∣∣22{||w||_2^2}∣∣w∣∣22作为正则化项,则添加L2{L_2}L2正则后的损失函数为
L(w)=12∑i=1n(w⊤xi−yi)2+λw⊤w=(X⊤X+λI)−1X⊤Y.
{L(w) = \frac{1}{2} \sum_{i=1}^{n} (w^\top x_i-y_i)^2 + \lambda w^\top w = (X^\top X + \lambda I)^{-1}X^\top Y}.
L(w)=21i=1∑n(w⊤xi−yi)2+λw⊤w=(X⊤X+λI)−1X⊤Y. 不难看出,X⊤X{X^\top X}X⊤X为半正定矩阵,λI{\lambda I}λI为单位矩阵,相加后为正定矩阵,一定可逆,所以我们就通过给损失函数添加L2{L_2}L2正则解决了过拟合的问题。
四、关系
将样本真实值视作预测值加一定程度的噪声ε{\varepsilon}ε,即
yi=f(xi)+ε.
{y_i = f(x_i) + \varepsilon}.
yi=f(xi)+ε.
若假设ε∼N(0,σ12){\varepsilon \sim N(0,\sigma_1^2)}ε∼N(0,σ12),则MLE的公式可化为
w^=argmin12∑i=1n(yi−w⊤xi)2,
{\hat{w} = \arg\min\frac{1}{2} \sum_{i=1}^{n} (y_i-w^\top x_i)^2},
w^=argmin21i=1∑n(yi−w⊤xi)2,与LSE的公式完全相同。由此可得,不添加正则化项时,LSE即为噪声服从高斯分布时的MLE。
若假设w∼N(0,σ22){w \sim N(0,\sigma_2^2)}w∼N(0,σ22),则MAP公式可化为
w^=argmin ∑i=1n(yi−w⊤xi)2+σ12σ22∣∣w∣∣22,
{\hat{w} = \arg\min\ \sum_{i=1}^{n} (y_i-w^\top x_i)^2 + \frac{\sigma_1^2}{\sigma_2^2}||w||_2^2},
w^=argmin i=1∑n(yi−w⊤xi)2+σ22σ12∣∣w∣∣22,与LSE的公式完全相同,其中λ=σ12σ22{\lambda = \frac{\sigma_1^2}{\sigma_2^2}}λ=σ22σ12。由此可得,添加正则化项时,LSE即为噪声和w{w}w均服从高斯分布时的MAP。
参考:https://www.bilibili.com/video/av31989606