想要了解最大后验概率估计,需要学会贝叶斯定理以及极大似然估计
贝叶斯定理--用来描述两个条件概率之间的关系。
- P(A)表示事件A发生的概率,称为先验分布(Prior)。
- P(B)表示事件B发生的概率,称为证据(Evidence)。
- P(A | B)表示事件B已经发生的情况下,事件A发生的概率,称为后验分布(Posterior)。
- P(B | A)表示事件A已经发生的情况下,事件B发生的概率,称为似然(Likelihood)。
极大似然估计(MLE)
又称最大似然估计,把待估计的参数看作是确定性的量(但其取值未知),其最佳估计就是使得产生已观察到的样本的概率为最大的那个值。简单来讲,就是给定模型,然后通过收集数据,求该模型的参数。
例如,投10次特殊的硬币(给定模型),出现6次正面4次反面(请注意,这里10次结果有顺序,后面所有的投硬币结果,都有顺序)(收集数据),现在要估计投这枚硬币出现正面的概率(求参数)。
实验中获得数据 = {反、正、正、正、正、反、反、正、反、正}
其似然函数为: (满足二项分布)
最大似然估计的目的是使似然函数取最大值的作为
的估计。
常用的方法是令
解得=0.6
最大后验概率估计(MAP)
贝叶斯学派学者认为模型参数为一个已知分布的随机变量,而
的估计
即为参数
在其分布上的最大值。
利用贝叶斯定理则是希望通过已知的随机变量的先验分布,结合证据和似然更新得到接近其真实分布的后验分布,再通过最大化后验分布的
作为
的估计值,这种方法被称为最大后验概率估计。
最大后验概率估计的目标为
同样是刚才的实验,对于随机变量我们对其有一个先验的认识,其满足
∼N(0.5,1)的正态分布。由贝叶斯公式可知:
,所以原目标可转化为:
那么,
随着数据样本的增多,MAP会慢慢向MLE靠拢
最后总结一下就是:最大后验的实质就是对参数的每一个可能的取值,都进行极大似然估计,并根据这个取值可能性的大小,设置极大似然估计的权重,然后选择其中最大的一个,作为最大后验估计的结果。
参考文献:贝叶斯定理与最大似然估计和最大后验概率估计 - 知乎 (zhihu.com)
https://blog.youkuaiyun.com/fq_wallow/article/details/104383057