极大似然估计

设总体分布为f(x;θ1,,θk)f(x;θ1,⋯,θk)X1,,XnX1,⋯,Xn为自这个总体中抽出的样本,则样本(X1,,Xn)(X1,⋯,Xn)的分布(即其概率密度函数或概率函数)为

f(x1;θ1,,θk)f(x2;θ1,,θk)f(xn;θ1,,θk)f(x1;θ1,⋯,θk)f(x2;θ1,⋯,θk)⋯f(xn;θ1,⋯,θk)

记为L(x1,,xn;θ1,,θk)L(x1,⋯,xn;θ1,⋯,θk)

固定θ1,,θkθ1,⋯,θk,而看做x1,,xnx1,⋯,xn的函数时,L是一个概率密度函数或者概率函数。可以这样理解:若L(Y1,,Yn;θ1,,θk)>L(X1,,Xn;θ1,,θk)L(Y1,⋯,Yn;θ1,⋯,θk)>L(X1,⋯,Xn;θ1,⋯,θk),则在观察时出现(Y1,,Yn)(Y1,⋯,Yn)这个点的可能性要比出现X1,,XnX1,⋯,Xn这个点的可能性大。把这件事反过来说,可以这样想:当已观察到X1,,XnX1,⋯,Xn时,若L(X1,,Xn;θ1,,θk)>L(X1,,Xn;θ1,,θk)L(X1,⋯,Xn;θ1′,⋯,θk′)>L(X1,⋯,Xn;θ1″,⋯,θk″),则被估计的参数(θ1,,θk)(θ1,⋯,θk)(θ1,,θk)(θ1′,⋯,θk′)的可能性要比它是(θ1,,θk)(θ1″,⋯,θk″)的可能性大。

(X1,,Xn)(X1,⋯,Xn)固定而把L看做(θ1,,θk)(θ1,⋯,θk)的函数时,它成为“似然函数”。这个名称的意义,可根据上述分析得到理解:这个函数对不同的(θ1,,θk)(θ1,⋯,θk)的取值,反映了在观察结果(X1,,Xn)(X1,⋯,Xn)已知的条件下,(θ1,,θk)(θ1,⋯,θk)的各种值的“似然程度”。注意,这里有些像贝叶斯公式中的推理:把观察值(X1,,Xn)(X1,⋯,Xn)看成结果,而把参数(θ1,,θk)(θ1,⋯,θk)看成是导致这个结果的原因。现已有了结果,要反过来推算各种原因的概率。这里,参数(θ1,,θk)(θ1,⋯,θk)有一定的值(虽然未知),并非事件或随机变量,无概率可言,于是就改用“似然”这个词。

由上述分析就自然地导致如下的方法:应该用似然程度最大的那个点(θ1,,θk)(θ1∗,⋯,θk∗),即满足条件

L(X1,,Xn;θ1,,θk)=maxθ1,,θkL(X1,,Xn;θ1,,θk)L(X1,⋯,Xn;θ1∗,⋯,θk∗)=maxθ1,⋯,θkL(X1,⋯,Xn;θ1,⋯,θk)

(θ1,,θk)(θ1∗,⋯,θk∗)去做(θ1,,θk)(θ1,⋯,θk)的估计值,因为在已得的样本X1,,XnX1,⋯,Xn的条件下,这个看起来最像是真参数值。这个估计(θ1,,θk)(θ1∗,⋯,θk∗)就叫做(θ1,,θk)(θ1,⋯,θk)的“极大似然估计”。如果要估计的是g(θ1,,θk)g(θ1,⋯,θk),则g(θ1,,θk)g(θ1∗,⋯,θk∗)是它的极大似然估计。

因为连乘不好计算,而且取对数并不改变取最大的目的,所以通常会对似然函数取对数。

lnL=i=1nlnf(Xi;θ1,,θk)ln⁡L=∑i=1nln⁡f(Xi;θ1,⋯,θk)

故在f对θ1,,θkθ1,⋯,θk存在连续的偏导数时,可建立方程组(称为似然方程组):
ln(L)θi=0(i=1,,k)∂ln⁡(L)∂θi=0(i=1,⋯,k)

如果这个方程组有唯一解,又能验证它是一个极大值点,则它必是使L达到最大的点,即极大似然估计。

例子

X1,,XnX1,⋯,Xn是从正态总体分布N(μ,δ2)N(μ,δ2)中抽出样本,则似然函数为:

L=i=1n[(2πδ2)1exp(12δ2(Xiμ)2)]L=∏i=1n[(2πδ2)−1exp⁡(−12δ2(Xi−μ)2)]


lnL=n2ln2πn2ln(δ2)12δ2i=1n(Xiμ)2ln⁡L=−n2ln⁡2π−n2ln⁡(δ2)−12δ2∑i=1n(Xi−μ)2

求解方程组(把δ2δ2作为一个整体看):
lnLμ=1δ2i=1n(Xiμ)=0∂ln⁡L∂μ=1δ2∑i=1n(Xi−μ)=0

lnL(δ2)=n2δ2+12δ4i=1n(Xiμ)2=0∂ln⁡L∂(δ2)=−n2δ2+12δ4∑i=1n(Xi−μ)2=0

由第一式得出μμ的解为
μ=i=1nXi/n=Xμ∗=∑i=1nXi/n=X¯

以此代入第二式中,得到δ2δ2的解为
δ2=i=1n(XiX)2/n=m2δ∗2=∑i=1n(Xi−X¯)2/n=m2

我们看到:μμδ2δ2的极大似然估计μμ∗δ2δ∗2与其矩估计完全一样。在本例中,容易肯定(μ,δ2)(μ∗,δ∗2)确是使似然函数L达到最大值的点。

矩估计与极大似然估计在多数情况下一致。也有这样的情况,用两个估计方法都行不通或不易实行。

统计推断问题的解,往往可以从许多看来都合理的途径去考虑,并无一成不变的方法,不同解固然有优劣之分,但这种优劣也是相对于一定的准则而言,并无绝对的价值。下述情况也并不罕见:估计甲在某一准则下优于乙,而乙又在另一准则下优于甲。

极大似然估计法的思想,始于高斯的误差理论,到1912年由Fisher在一篇论文中把它作为一个一般的估计方法提出来。自20世纪20年代以来,Fisher自己及许多统计学家对这一估计方法进行了大量的研究。总的结论是:在各种估计方法中,相对来说它一般更为优良,但在个别情况下也给出很不理想的结果。与矩估计方法不同,极大似然估计法要求分布有参数的形式。比如说,要对总体分布毫无所知而要估计其均值、方差,极大似然法就无能为力。

参考书目
《概率论与数理统计》——陈希孺

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值