极大似然估计(Maximum likelihood estimation,ML)
设样本 χ={X1,...,Xn} 为独立同分布,其概率密度函数(PDF)为 p(Xi;θ) , θ 是密度函数中的参数。极大似然估计就是求使得似然函数( p(χ;θ) )极大的 θ 值,通俗地讲就是对于不同的 θ 取值,找到能使样本 χ={X1,...,Xn} 发生的概率最大的 θ 值 θ^ML ,而这些样本发生的概率为 ∏p(Xi;θ) 。即:
(1)
其中, p(χ;θ)=∏p(Xi;θ)=∏pθ(Xi) ,式(1)可转化为极大化 lnP(θ;χ) ,可以通过导数并令其为零来求解:
ML估计只是求解使得似然函数最大的 θ ,没有考虑 θ 的任何先验知识,属于非贝叶斯方法。而且ML 没有采取任何正则化手段,容易产生过拟合。
最大后验概率(Maximum A Posteriori Probability Estimation,MAP)估计
MAP估计是在观测到样本
χ
后估算
θ
最有可能的取值,即计算后验概率
p(θ|χ)
取最大值时的
θ
值,
p(θ|χ)
的计算是基于贝叶斯公式的,如下:
p(θj|χ)=p(χ|θj)p(θj)p(χ)=p(χ|θj)p(θj)∑jp(χ|θj)p(θj)(2)
其中, p(χ)=∑jp(χ|θj)p(θj) 与 θ 相互独立,这样 p(χ) 的取值与求解式(2)的极大值无关,可以进一步转化为求 p(χ|θ)p(θ) 的极大值。即:
我们可以看到,上面的求解涉及到 p(θ),p(χ|θ) ,所以MAP在进行估计时利用了先验知识—— θ 的分布。为未知随机变量 θ 假设一种分布,这也是MAP方法进行正则化的方式。
贝叶斯估计(Bayesian Estimation)
MAP是一种点估计的方法,在似然函数达到最大的情况下,求
θ
的取值
θ^
。而贝叶斯估计是MAP的扩展版,它估计的不仅仅是
θ
的一个取值
θ^
,而是整个
θ
的分布。
p(θ|χ)=p(χ|θ)p(θ)p(χ)
MAP估计过程只用到了上式得分子部分,忽略了正则化项
p(χ)
,而贝叶斯估计要给出
θ
分布所以是要计算分母
p(χ)
的。
参考
贝叶斯统计与机器学习
1.Theodoridis S. Machine learning: a Bayesian and optimization perspective[M]. Academic Press, 2015.

被折叠的 条评论
为什么被折叠?



