#数据分析 MLE(最大似然估计) MAP(最大后验估计)

本文探讨了频率学派的MLE(最大似然估计)与贝叶斯学派的MAP(最大后验估计)在建模和求解参数估计上的区别,以独立同分布抽样为例,解析了两种方法的推导过程,并指出深度学习中的交叉熵损失本质是MLE。同时,讲解了两者在使用高斯先验时的等效性,以及如何通过先验选择体现不同的优化策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • MLE (Maximum Likelihood Estimation 最大似然估计) 频率学派
  • MAP (Maximum A Posteriori 最大厚颜估计) 贝叶斯学派

各派观点:

  • 频率学派认为世界确定,有一个本体其真值是不变的,我们的目标是要找到该真值或真值所在的范围
  • 贝叶斯学派认为世界是不确定的,人们对世界有一个预判,通过观测数据对预判做调整,我们的目标是要找到最优的描述这个世界的概率分布

对事物建模时用θ\thetaθ表示模型的参数,解决问题的本质即是求解该值

- MLE
假设数据 x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn是独立同分布的一组抽样,那么MLE对θ\thetaθ 的估计方法可以如下推导:
θ^MLE\hat{\theta}_{MLE}θ^MLE
=arg max P(X,θ)P(X, \theta)P(X,θ)
=arg max P(x1,θ)P(x2,θ)...P(xn,θ)P(x_1, \theta)P(x_2, \theta)...P(x_n, \theta)P(x1,θ)P(x2,θ)...P(xn,θ)
=arg max ∑i=1nlogP(xi),θ\sum_{i=1}^{n}logP(x_i),\thetai=1nlogP(xi),θ
=arg min -∑i=1nlogP(xi),θ\sum_{i=1}^{n}logP(x_i),\thetai=1nlogP(xi),θ
最后一行即Negative Log Likelihood(NLL)
深度学习做分类任务时所用的 cross entropy loss 本质也是MLE

- MAP
假设数据 x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn是独立同分布的一组抽样,则MAP对θ\thetaθ 的估计方法可以如下推导:
θ^MAP\hat{\theta}_{MAP}θ^MAP
=arg max P(θ∣X)P(\theta|X)P(θX)
=arg min -logP(θ∣X)log P(\theta|X)logP(θX)
=arg min -logP(X∣θ)log P(X|\theta)logP(Xθ)-logP(θ)log P(\theta)logP(θ)+logP(X)log P(X)logP(X)
=arg min -logP(X∣θ)log P(X|\theta)logP(Xθ)-logP(θ)log P(\theta)logP(θ)
(不考虑最后一项因为其与θ\thetaθ无关)
-logP(X∣θ)log P(X|\theta)logP(Xθ)即NLL,所以MLE 和 MAP优化的不同在于先验项-logP(θ)log P(\theta)logP(θ) 。假设先验是高斯分布即:
P(θ)P(\theta)P(θ) =constant ×e−θ22σ2\times e^{- \frac{\theta^2}{2\sigma^2}}×e2σ2θ2
则-logP(θ)log P(\theta)logP(θ) =constant + eθ22σ2e^{\frac{\theta^2}{2\sigma^2}}e2σ2θ2
在MAP中使用高斯分布的先验等价于在MLE中采用L2正则

ref:https://zhuanlan.zhihu.com/p/32480810

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值