- 极大似然估计(频率学派)
在极大似然估计中,假设数据服从某个参数未知的概率分布,求解目标是求一个参数使得数据似然概率最大。这里参数是固定的值,反映数据的本质属性。
θML=argmaxθP(X;θ)=argmaxθlogP(X;θ)\theta _{ML}=\arg \max \limits_{\theta} P(X;\theta) \\=\arg \max \limits_{\theta} logP(X;\theta)θML=argθmaxP(X;θ)=argθmaxlogP(X;θ)
条件最大似然估计:
θML=argmaxθP(Y∣X;θ)\theta _{ML}=\arg \max \limits_{\theta} P(Y|X;\theta)θML=argθmaxP(Y∣X;θ)
当样本小到可能会发生过拟合时,可以考虑加入正则项或者考虑贝叶斯统计。 - 最大后验估计(贝叶斯学派)
在最大后验估计中,概率分布的参数也被当成了随机变量,其值决定于观察者看到的数据,随着观察的变化而变化。最大后验估计目标是,根据参数的概率分布得到概率最大的参数值。
θMAP=argmaxθP(θ∣X)=argmaxθP(θ,X)/P(X)=argmaxθP(X∣θ)∗P(θ)/P(X)=argmaxθlog(P(X∣θ)∗P(θ)/P(X))=argmaxθlogP(X∣θ)+logP(θ)−logP(X)=argmaxθlogP(X∣θ)+logP(θ)\theta _{MAP}=\arg \max \limits_{\theta} P(\theta|X) \\=\arg \max \limits_{\theta} P(\theta,X)/P(X) \\=\arg \max \limits_{\theta} P(X|\theta)*P(\theta)/P(X) \\=\arg \max \limits_{\theta} log(P(X|\theta)*P(\theta)/P(X)) \\=\arg \max \limits_{\theta} logP(X|\theta)+logP(\theta)-logP(X) \\=\arg \max \limits_{\theta} logP(X|\theta)+logP(\theta)θMAP=argθmaxP(θ∣X)=argθmaxP(θ,X)/P(X)=argθmaxP(X∣θ)∗P(θ)/P(X)=argθmaxlog(P(X∣θ)∗P(θ)/P(X))=argθmaxlogP(X∣θ)+logP(θ)−logP(X)=argθmaxlogP(X∣θ)+logP(θ)
注意在极大似然估计中,“;”表示θ\thetaθ被当做了概率分布的参数,而在最大后验估计中,“|”表示θ\thetaθ被当做了随机变量。优化过程实际是一样的。所以最大后验估计相当于带有正则项约束的极大似然估计。而先验分布P(θ)P(\theta)P(θ)中的超参数对应着正则项的系数。
比如,当P(θ)P(\theta)P(θ)是拉普拉斯分布时,相当于加上L1L_1L1正则项;当P(θ)P(\theta)P(θ)是高斯分布时,相当于加上L2L_2L2正则项。当P(θ)P(\theta)P(θ)是均匀分布时,最大后验估计退化为极大似然估计。
然而并不是所有的正则项都对应着贝叶斯估计。
- 贝叶斯估计(贝叶斯学派)
贝叶斯估计和最大后验估计有密切联系。可以认为最大后验估计是贝叶斯估计的一种特例。最大后验估计是在参数分布中得到一个最佳参数值(概率最大),而贝叶斯估计是,求该参数在参数分布上的期望,作为参数的估计(1)式。更广义的贝叶斯估计不仅估计参数,还可以估计实例xxx的概率值(2)式。
θBE=Eθ[θ]=∫θP(θ∣X)dθ (1)\theta_{BE}=E_{\theta}[\theta]=\int \theta P(\theta|X)d\theta ~~~~~~~~~(1)θBE=Eθ[θ]=∫θP(θ∣X)dθ (1)
P(x∣X)BE=Eθ[x∣X]=∫P(x∣θ)θP(θ∣X)dθ (2)P(x|X)_{BE}=E_{\theta}[x|X]=\int P(x|\theta)\theta P(\theta|X)d\theta ~~~~~~~~~(2)P(x∣X)BE=Eθ[x∣X]=∫P(x∣θ)θP(θ∣X)dθ (2)
[1]. 深度学习,p82-88