TLDR (or the take away)
- 频率学派 - Frequentist - Maximum Likelihood Estimation (MLE,最大似然估计)
- 贝叶斯学派 - Bayesian - Maximum A Posteriori (MAP,最大后验估计)
两大学派的争论
抽象一点来讲,频率学派和贝叶斯学派对世界的认知有本质不同:频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范围;而贝叶斯学派认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的目标是要找到最优的描述这个世界的概率分布。
在对事物建模时,用 θ\thetaθ 表示模型的参数,请注意,解决问题的本质就是求 θ\thetaθ 。那么:
- 频率学派:存在唯一真值 θ\thetaθ 。举一个简单直观的例子–抛硬币,我们用 P(head)P(head)P(head) 来表示硬币的bias。抛一枚硬币100次,有20次正面朝上,要估计抛硬币正面朝上的bias P(head)P(head)P(head) 。在频率学派来看,θ\thetaθ = 20 / 100 = 0.2,很直观。当数据量趋于无穷时,这种方法能给出精准的估计;然而缺乏数据时则可能产生严重的偏差。例如,对于一枚均匀硬币,即 θ\thetaθ = 0.5,抛掷5次,出现5次正面 (这种情况出现的概率是1/2^5=3.125%),频率学派会直接估计这枚硬币 θ\thetaθ = 1,出现严重错误。
- 贝叶斯学派: θ\thetaθ 是一个随机变量,符合一定的概率分布。在贝叶斯学派里有两大输入和一大输出,输入是先验 (prior)和似然 (likelihood),输出是后验 (posterior)。先验,即 P(θ)P(\theta)P(θ),指的是在没有观测到任何数据时对 θ\thetaθ 的预先判断,例如给我一个硬币,一种可行的先验是认为这个硬币有很大的概率是均匀的,有较小的概率是是不均匀的;似然,即P(X∣θ)P(X|\theta)P(X∣θ) ,是假设 θ\thetaθ 已知后我们观察到的数据应该是什么样子的;后验,即 P(θ∣X)P(\theta|X)P(θ∣X) ,是最终的参数分布。贝叶斯估计的基础是贝叶斯公式,如下:
P(θ∣X)=P(X∣θ)P(θ)P(X)P(\theta|X) = \dfrac{P(X|\theta)P(\theta)}{P(X)}P(θ∣X)=P(X)P(X∣θ)P(θ)
同样是抛硬币的例子,对一枚均匀硬币抛5次得到5次正面,如果先验认为大概率下这个硬币是均匀的 (例如最大值取在0.5处的Beta分布),那么 P(head)P(head)P(head) ,即 P(θ∣X)P(\theta|X)P(θ∣X),是一个distribution,最大值会介于0.5~1之间,而不是武断的θ\thetaθ= 1。
问题引入
已知一组数据集D={x1,x2,...,xn}D=\{x_1,x_2,...,x_n\}D={x1,x2,...,xn}是独立地从概率分布P(x)P(x)P(x)上采样生成的,且 P(x)P(x)P(x)具有确定的形式(如高斯分布,二项分布等)但参数θ\thetaθ未知。
问题:如何根据数据集DDD 估计参数θ\thetaθ ?
为了解决上述问题,统计学界存在两种不同的解决方案:
- 频率学派:参数θ\thetaθ是一个客观存在的固定值,其可以通过找到使数据集 DDD 出现可能性最大的值,对参数 θ\thetaθ进行估计,此便是极大似然估计的核心思想。
- 贝叶斯学派:参数 θ\thetaθ是一个随机变量,服从一个概率分布(换句话讲,θ\thetaθ不是一个客观存在的固定值,而是可以取很多不同值的变量,且具有相应的可能性),其首先根据主观的经验假定θ\thetaθ的概率分布为 P(θ)P(\theta)P(θ)(先验分布,往往并不准确),然后根据观察到的新信息(数据集 DDD)对其进行修正,此时θ\thetaθ的概率分布为 P(θ∣D)P(\theta|D)P(θ∣D)(后验分布)。
最大似然估计
核心思想:找到使数据集 DDD出现可能性最大的值,对参数 θ\thetaθ进行估计,即θ^=argmaxθP(D∣θ)\widehat {\theta }=argmax_{\theta }P(D|\theta)θ=argmaxθP(D∣θ)。
最大后验估计
原则上,贝叶斯学派对 θ\thetaθ的估计应该就是θ\thetaθ的后验分布P(θ∣D)P(\theta|D)P(θ∣D),但是大多数时候后验分布的计算较为棘手,因此此时出现一种折衷解法:找到使后验概率最大的值,对参数 P(θ)P(\theta)P(θ)进行估计,即

根据上式可以发现,最大后验估计与最大似然估计优化过程中的差异便是多了一项logp(x)\log p\left( x\right)logp(x) ,相当于加了一项与 θ\thetaθ的先验概率 P(θ)P(\theta)P(θ) 有关的惩罚项。
本文深入探讨了统计学中频率学派与贝叶斯学派的不同观点,频率学派认为参数是固定的,通过最大似然估计找到最可能的参数值;而贝叶斯学派将参数视为随机变量,利用先验知识结合数据进行最大后验估计,以获得更合理的参数分布。
33万+

被折叠的 条评论
为什么被折叠?



