参数估计是统计推断的基本问题,最大似然估计法是用于参数估计的一种常用方法。
点估计
通俗的说就是用一个样本来估计总体的分布的参数
定义:设总体XXX的分布函数F(x;θ)F(x;\theta)F(x;θ)形式已知,θ\thetaθ是带估计参数。X1,X2,X3,...XnX_1,X_2,X_3,...X_nX1,X2,X3,...Xn是XXX的一个样本,x1,x2,x3,...xnx_1,x_2,x_3,...x_nx1,x2,x3,...xn是相应的一个样本值。点估计问题就是要构造一个适当的统计量θ^(X1,X2,X3,...Xn)\hat{\theta}(X_1,X_2,X_3,...X_n)θ^(X1,X2,X3,...Xn),用其观察值θ^(x1,x2,x3,...xn)\hat{\theta}(x_1,x_2,x_3,...x_n)θ^(x1,x2,x3,...xn)作为参数θ\thetaθ的近似值。我们称θ^(X1,X2,X3,...Xn)\hat{\theta}(X_1,X_2,X_3,...X_n)θ^(X1,X2,X3,...Xn)为thetathetatheta的估计量,称θ^(x1,x2,x3,...xn)\hat{\theta}(x_1,x_2,x_3,...x_n)θ^(x1,x2,x3,...xn)为θ\thetaθ的估计值。
最大似然法
最大似然法是一种常用的构造估计量的方法
其主要思想是,对于一个随机变量,我们想要估计其统计分布的某个参数时,若已知了一组样本,那么我们就可以使用这组样本来估计这个参数。
若总体是离散变量,其分布律为P(X=x)=p(x;θ)P(X=x)=p(x;\theta)P(X=x)=p(x;θ),这里θ\thetaθ是待估计参数。X1,X2,X3,...,XnX_1,X_2,X_3,...,X_nX1,X2,X3,...,Xn是来自总体X的样本。这里构造的估计量是这组样本的联合概率分布(这里还是使用上面的符号):
L(θ)=L(X1,X2,X3...,Xn;θ)=∏i=1np(Xi;θ)L(\theta)=L(X_1,X_2,X_3...,X_n;\theta)=\prod_{i=1}^{n}p(X_i;\theta)L(θ)=L(X1,X2,X3...,Xn;θ)=i=1∏np(Xi;θ)
若已知这组样本的一个样本值是x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn,则上面的联合概率分布的估计值是:
L(θ)=L(x1,x2,x3...,xn;θ)=∏i=1np(xi;θ)L(\theta)=L(x_1,x_2,x_3...,x_n;\theta)=\prod_{i=1}^{n}p(x_i;\theta)L(θ)=L(x1,x2,x3...,xn;θ)=i=1∏np(xi;θ)
又称为似然函数。
若使用连续性随机变量其联合概率分布是:
∏i=1nf(xi;θ)dxi\prod_{i=1}^{n}f(x_i;\theta)dx_ii=1∏nf(xi;θ)dxi
其中f(xi;θ)f(x_i;\theta)f(xi;θ)为概率密度函数,dxidx_idxi为领域长度。由于dxidx_idxi与θ\thetaθ无关,所以只需考虑概率密度函数。所以似然函数为:
L(θ)=L(x1,x2,x3...,xn;θ)=∏i=1nf(xi;θ)L(\theta)=L(x_1,x_2,x_3...,x_n;\theta)=\prod_{i=1}^{n}f(x_i;\theta)L(θ)=L(x1,x2,x3...,xn;θ)=i=1∏nf(xi;θ)
又于先入为主观念,最大似然法认为当前已知的样本,具有最大的概率发生。反过来说也就是,最大似然法认为,θ\thetaθ的估计值是使得当前已知样本具有最大概率发生(即X1=x1,X2=x2,X3=x3...,Xn=xnX_1=x_1,X_2=x_2,X_3=x_3...,X_n=x_nX1=x1,X2=x2,X3=x3...,Xn=xn)的那个θ\thetaθ值,记作θ^\hat{\theta}θ^:
L(x1,x2,x3...,xn;θ^)=maxθL(x1,x2,x3...,xn;θ)L(x_1,x_2,x_3...,x_n;\hat{\theta})=\begin{matrix}
&max\\
&\theta
\end{matrix} L(x_1,x_2,x_3...,x_n;\theta)L(x1,x2,x3...,xn;θ^)=maxθL(x1,x2,x3...,xn;θ)
这样得到的θ^\hat\thetaθ^称为θ\thetaθ最大似然估计值。
这样最大似然估计值的求解就变为了一个求极值的过程。即从:
ddθL(θ)=0\frac{d}{d\theta}L(\theta)=0dθdL(θ)=0或者
ddθlnL(θ)=0\frac{d}{d\theta}lnL(\theta)=0dθdlnL(θ)=0求得
通常后者比前者更容易求解,称为对数似然方程,ln(L(θ))ln(L(\theta))ln(L(θ))称为对数似然函数。似然函数和对数似然函数可以乘上常数,任然是似然函数。
参考书1:概率论与数理统计 浙江大学 第四版
参考书2:统计学习方法 李航