首先,要明确最大似然估计的作用。最大似然估计是用来估计参数的,是在已知所有样本数据和样本数据的分布形式的情况下,来估计分布的具体参数的。举个例子,我们知道有数据(x1,y1),(x2,y2),⋯(x100,y100)(x_1,y_1),(x_2,y_2),\cdots (x_{100},y_{100})(x1,y1),(x2,y2),⋯(x100,y100)这100组数据满足y=ax+by=ax+by=ax+b的线性分布,现在要计算aaa和bbb,那么这个过程就是参数估计过程。一定不要弄混了。
最大似然估计的基本思想是,总体XXX是离散型的,且分布律是P{X=x}=p(x;θ)P\{X=x\}=p(x;\theta)P{X=x}=p(x;θ),θ∈Θ\theta\in \Thetaθ∈Θ的形式是已知的,Θ\ThetaΘ是θ\thetaθ可能的取值范围。设X1,X2,⋯ ,XnX_1,X_2,\cdots, X_nX1,X2,⋯,Xn是来自总体XXX的样本,因为是独立取样的,所以他们的联合分布概率是
Πi=1np(xi;θ),θ∈Θ
\Pi_{i=1}^{n}p(x_i;\theta),\theta\in \Theta
Πi=1np(xi;θ),θ∈Θ
令
L(θ)=L(x1,x2,⋯ ,xn;θ)=Πi=1np(xi;θ),θ∈Θ
L(\theta)=L(x_1,x_2,\cdots,x_n;\theta)=\Pi_{i=1}^{n}p(x_i;\theta),\theta\in \Theta
L(θ)=L(x1,x2,⋯,xn;θ)=Πi=1np(xi;θ),θ∈Θ
这个概率的取值随着θ\thetaθ变化而变化,L(x,θ)L(x,\theta)L(x,θ)是似然估计函数。那么求出θ\thetaθ最有可能的值的过程就是最大似然估计的过程。最大似然估计的θ\thetaθ必然满足:
L(x1,x2,⋯ ,xn;θ)=maxθ∈ΘL(x1,x2,⋯ ,xn;θ)
L(x_1,x_2,\cdots,x_n;\theta)=max_{\theta\in \Theta}L(x_1,x_2,\cdots,x_n;\theta)
L(x1,x2,⋯,xn;θ)=maxθ∈ΘL(x1,x2,⋯,xn;θ)
这样做的理由是,当前一次性取得的x1,⋯ ,xnx_1,\cdots,x_nx1,⋯,xn肯定是概率最大的一种情况,那么必然要求出θ\thetaθ使得L(x;θ)L(x;\theta)L(x;θ)的值最大,所以这么求解。
假设函数是可微的,那么
ddθlnΘ=0
\frac{d}{d\theta}\ln{\Theta}=0
dθdlnΘ=0
是一个参数方程,求出参数方程即可。取对数是为了求导计算方便,同时又不失单调性。