设总体分布为f(x;θ1,⋯,θk)f(x;θ1,⋯,θk),X1,⋯,XnX1,⋯,Xn为自这个总体中抽出的样本,则样本(X1,⋯,Xn)(X1,⋯,Xn)的分布(即其概率密度函数或概率函数)为
记为L(x1,⋯,xn;θ1,⋯,θk)L(x1,⋯,xn;θ1,⋯,θk)。
固定θ1,⋯,θkθ1,⋯,θk,而看做x1,⋯,xnx1,⋯,xn的函数时,L是一个概率密度函数或者概率函数。可以这样理解:若L(Y1,⋯,Yn;θ1,⋯,θk)>L(X1,⋯,Xn;θ1,⋯,θk)L(Y1,⋯,Yn;θ1,⋯,θk)>L(X1,⋯,Xn;θ1,⋯,θk),则在观察时出现(Y1,⋯,Yn)(Y1,⋯,Yn)这个点的可能性要比出现X1,⋯,XnX1,⋯,Xn这个点的可能性大。把这件事反过来说,可以这样想:当已观察到X1,⋯,XnX1,⋯,Xn时,若L(X1,⋯,Xn;θ′1,⋯,θ′k)>L(X1,⋯,Xn;θ″1,⋯,θ″k)L(X1,⋯,Xn;θ1′,⋯,θk′)>L(X1,⋯,Xn;θ1″,⋯,θk″),则被估计的参数(θ1,⋯,θk)(θ1,⋯,θk)是(θ′1,⋯,θ′k)(θ1′,⋯,θk′)的可能性要比它是(θ″1,⋯,θ″k)(θ1″,⋯,θk″)的可能性大。
当(X1,⋯,Xn)(X1,⋯,Xn)固定而把L看做(θ1,⋯,θk)(θ1,⋯,θk)的函数时,它成为“似然函数”。这个名称的意义,可根据上述分析得到理解:这个函数对不同的(θ1,⋯,θk)(θ1,⋯,θk)的取值,反映了在观察结果(X1,⋯,Xn)(X1,⋯,Xn)已知的条件下,(θ1,⋯,θk)(θ1,⋯,θk)的各种值的“似然程度”。注意,这里有些像贝叶斯公式中的推理:把观察值(X1,⋯,Xn)(X1,⋯,Xn)看成结果,而把参数(θ1,⋯,θk)(θ1,⋯,θk)看成是导致这个结果的原因。现已有了结果,要反过来推算各种原因的概率。这里,参数(θ1,⋯,θk)(θ1,⋯,θk)有一定的值(虽然未知),并非事件或随机变量,无概率可言,于是就改用“似然”这个词。
由上述分析就自然地导致如下的方法:应该用似然程度最大的那个点(θ∗1,⋯,θ∗k)(θ1∗,⋯,θk∗),即满足条件
的(θ∗1,⋯,θ∗k)(θ1∗,⋯,θk∗)去做(θ1,⋯,θk)(θ1,⋯,θk)的估计值,因为在已得的样本X1,⋯,XnX1,⋯,Xn的条件下,这个看起来最像是真参数值。这个估计(θ∗1,⋯,θ∗k)(θ1∗,⋯,θk∗)就叫做(θ1,⋯,θk)(θ1,⋯,θk)的“极大似然估计”。如果要估计的是g(θ1,⋯,θk)g(θ1,⋯,θk),则g(θ∗1,⋯,θ∗k)g(θ1∗,⋯,θk∗)是它的极大似然估计。
因为连乘不好计算,而且取对数并不改变取最大的目的,所以通常会对似然函数取对数。
故在f对θ1,⋯,θkθ1,⋯,θk存在连续的偏导数时,可建立方程组(称为似然方程组):
如果这个方程组有唯一解,又能验证它是一个极大值点,则它必是使L达到最大的点,即极大似然估计。
例子
设X1,⋯,XnX1,⋯,Xn是从正态总体分布N(μ,δ2)N(μ,δ2)中抽出样本,则似然函数为:
故
求解方程组(把δ2δ2作为一个整体看):
由第一式得出μμ的解为
以此代入第二式中,得到δ2δ2的解为
我们看到:μμ与δ2δ2的极大似然估计μ∗μ∗和δ∗2δ∗2与其矩估计完全一样。在本例中,容易肯定(μ∗,δ∗2)(μ∗,δ∗2)确是使似然函数L达到最大值的点。
矩估计与极大似然估计在多数情况下一致。也有这样的情况,用两个估计方法都行不通或不易实行。
统计推断问题的解,往往可以从许多看来都合理的途径去考虑,并无一成不变的方法,不同解固然有优劣之分,但这种优劣也是相对于一定的准则而言,并无绝对的价值。下述情况也并不罕见:估计甲在某一准则下优于乙,而乙又在另一准则下优于甲。
极大似然估计法的思想,始于高斯的误差理论,到1912年由Fisher在一篇论文中把它作为一个一般的估计方法提出来。自20世纪20年代以来,Fisher自己及许多统计学家对这一估计方法进行了大量的研究。总的结论是:在各种估计方法中,相对来说它一般更为优良,但在个别情况下也给出很不理想的结果。与矩估计方法不同,极大似然估计法要求分布有参数的形式。比如说,要对总体分布毫无所知而要估计其均值、方差,极大似然法就无能为力。
参考书目
《概率论与数理统计》——陈希孺