矩估计法
矩估计法的定义
矩估计法是用样本kkk阶矩作为总体的kkk阶矩的估计量,建立含待估计参数的方程,从而解出带估计参数。矩估计中,总体均值与方差的矩估计量的表达式不因不同的总体分布而异。通俗的讲就是:
例如,不论总体服从什么分布,总体期望μ\muμ,与方差δ2\delta^2δ2存在,则根据矩估计法,它们的估计量分别为 μ^=1n∑i=1nXi=Xˉδ^2=1n∑i=1n(Xi−Xˉ)2=Sn2
\hat{\mu}=\frac{1}{n}\sum\limits_{i=1}^n{X_i}=\bar{X}
\\\hat{\delta}^2=\frac{1}{n}\sum\limits_{i=1}^n{(X_i-\bar{X})^2}=S^2_n
μ^=n1i=1∑nXi=Xˉδ^2=n1i=1∑n(Xi−Xˉ)2=Sn2
当1n−1∑i=1n(Xi−Xˉ)2=Sn2\frac{1}{n-1}\sum\limits_{i=1}^n{(X_i-\bar{X})^2}=S^2_nn−11i=1∑n(Xi−Xˉ)2=Sn2时,是无偏矩估计。当然,矩估计不唯一。
一般地,用样本均值Xˉ=1n∑i=1nXi\bar{X}=\frac{1}{n}\sum\limits_{i=1}^n{X_i}Xˉ=n1i=1∑nXi作为总体的均值的矩估计。
用样本二阶中心距B2=1n∑i=1n(Xi−Xˉ)2B_2=\frac{1}{n}\sum\limits_{i=1}^n{(X_i-\bar{X})^2}B2=n1i=1∑n(Xi−Xˉ)2作为总体方差的的矩估计。
矩估计法的依据
设XXX为连续型随机变量,其概率密度为f(x;θ1,θ2,θ3,⋯ ,θk)f(x;\theta_1,\theta_2,\theta_3,\cdots,\theta_k)f(x;θ1,θ2,θ3,⋯,θk),设XXX为离散型随机变量,其分布律为P{X=x}=p(x;θ1,θ2,θ3,⋯ ,θk)P\{X=x\}=p(x;\theta_1,\theta_2,\theta_3,\cdots,\theta_k)P{X=x}=p(x;θ1,θ2,θ3,⋯,θk),其中θ1,θ2,θ3,⋯ ,θk\theta_1,\theta_2,\theta_3,\cdots,\theta_kθ1,θ2,θ3,⋯,θk为待估参数,X1,X2,X3,⋯ ,XnX_1,X_2,X_3,\cdots,X_nX1,X2,X3,⋯,Xn来自XXX的,假设总体XXX的前kkk阶矩且均为θ1,θ2,θ3,⋯ ,θk\theta_1,\theta_2,\theta_3,\cdots,\theta_kθ1,θ2,θ3,⋯,θk的函数,即
μl=E(Xl)=⎰+∞−∞xlf(x;θ2,θ3,⋯ ,θk)dx(X为连续型变量)μl=E(Xl)=∑x∈RXxlp(x;θ1,θ2,θ3,⋯ ,θk)(X为离散型变量)
\mu_l=E(X_l)=\lmoustache_{+\infty}^{-\infty}x^lf(x;\theta_2,\theta_3,\cdots,\theta_k)dx\quad(X为连续型变量)
\\\quad
\\\mu_l=E(X_l)=\sum\limits_{x\in R_X}{x^lp(x;\theta_1,\theta_2,\theta_3,\cdots,\theta_k)}\quad(X为离散型变量)
μl=E(Xl)=⎰+∞−∞xlf(x;θ2,θ3,⋯,θk)dx(X为连续型变量)μl=E(Xl)=x∈RX∑xlp(x;θ1,θ2,θ3,⋯,θk)(X为离散型变量)
RXR_XRX是xxx可能取值的范围,l=1,2,3,⋯ ,kl=1,2,3,\cdots,kl=1,2,3,⋯,k,因为样本矩的连续函数依概率收敛于相应的总体矩的连续函数,样本矩Al=1n∑i=1nXilA_l=\frac{1}{n}\sum\limits_{i=1}^n{X_i^l}Al=n1i=1∑nXil依概率收敛于相应的总体矩μl\mu_lμl。
矩估计的一般步骤
- 令μl=Al,l=1,2,3,⋯ ,k\mu_l=A_l,l=1,2,3,\cdots,kμl=Al,l=1,2,3,⋯,k,这是一个包含 k 个未知参数θ1,θ2,θ3,⋯ ,θk\theta_1,\theta_2,\theta_3,\cdots,\theta_kθ1,θ2,θ3,⋯,θk的方程组;
- 解出其中的θ1,θ2,θ3,⋯ ,θk\theta_1,\theta_2,\theta_3,\cdots,\theta_kθ1,θ2,θ3,⋯,θk;
- 用方程组的解θ^1,θ^2,θ^3,⋯ ,θ^k\hat{\theta}_1,\hat{\theta}_2,\hat{\theta}_3,\cdots,\hat{\theta}_kθ^1,θ^2,θ^3,⋯,θ^k分别作为θ1,θ2,θ3,⋯ ,θk\theta_1,\theta_2,\theta_3,\cdots,\theta_kθ1,θ2,θ3,⋯,θk的估计量。
例题
例1:设总体XXX的概率密度函数为
f(x,θ)=12θe−∣x∣θ,−∞<x<+∞,θ>0f(x,\theta)=\frac{1}{2\theta}e^{-\frac{|x|}{\theta}},\quad -\infty<x<+\infty,\quad\theta>0f(x,θ)=2θ1e−θ∣x∣,−∞<x<+∞,θ>0,求θ\thetaθ的矩估计量。
解:f(x;θ)f(x;\theta)f(x;θ)中仅含有一个θ\thetaθ,
E(X)=⎰−∞+∞x12θe−∣x∣θdx=0
E(X)=\lmoustache_{-\infty}^{+\infty}{x\frac{1}{2\theta}e^{-\frac{|x|}{\theta}}}dx=0
E(X)=⎰−∞+∞x2θ1e−θ∣x∣dx=0
E(X)E(X)E(X)中不含有θ\thetaθ,因此无法解出θ\thetaθ的矩估计量。需继续求总体的二阶原点矩。
E(X2)=⎰−∞+∞x212θe−∣x∣θdx=1θ⎰0+∞x2e−xθdx=θ2Γ(3)=2θ2
\begin{aligned}
E(X^2)&=\lmoustache_{-\infty}^{+\infty}{x^2\frac{1}{2\theta}e^{-\frac{|x|}{\theta}}}dx\\
&=\frac{1}{\theta}\lmoustache_0^{+\infty}x^2e^{-\frac{x}{\theta}}dx\\
&=\theta^2\Gamma(3)\\
&=2\theta^2\\
\end{aligned}
E(X2)=⎰−∞+∞x22θ1e−θ∣x∣dx=θ1⎰0+∞x2e−θxdx=θ2Γ(3)=2θ2
用A2=1n∑i=1nXi2A_2=\frac{1}{n}\sum\limits_{i=1}^n{X^2_i}A2=n1i=1∑nXi2替换E(X2)E(X^2)E(X2),则A2=1n∑i=1nXi2=2θ2A_2=\frac{1}{n}\sum\limits_{i=1}^n{X^2_i}=2\theta^2A2=n1i=1∑nXi2=2θ2,得出θ\thetaθ的矩估计量为
θ^=121n∑i=1nXi2=A22,θ>0
\hat{\theta}=\sqrt{\frac{1}{2}\frac{1}{n}\sum\limits_{i=1}^n{X^2_i}}=\sqrt{\frac{A_2}{2}} \quad,\quad \theta>0
θ^=21n1i=1∑nXi2=2A2,θ>0
例2
设总体XXX的均值μ\muμ和方差δ2\delta^2δ2都存在,且有δ>0\delta>0δ>0,但μ\muμ和δ2\delta^2δ2均为未知,又设X1,X2,X3,⋯ ,XnX_1,X_2,X_3,\cdots,X_nX1,X2,X3,⋯,Xn是一个样本,求μ\muμ和δ2\delta^2δ2的矩估计量。
解:
μ1=E(X)=μμ2=E(X2)=D(X)+[E(X)]2=δ2+μ2
\begin{aligned}
\mu_1&=E(X)=\mu\\
\mu_2&=E(X^2)=D(X)+[E(X)]^2=\delta^2+\mu^2
\end{aligned}
μ1μ2=E(X)=μ=E(X2)=D(X)+[E(X)]2=δ2+μ2
令
{μ=A1δ2+μ2=A2
\left\{
\begin{aligned}
&\mu=A_1\\
\\\quad
&\delta^2+\mu^2=A_2
\end{aligned}
\right.
⎩⎪⎨⎪⎧μ=A1δ2+μ2=A2
解得
{μ=μ1δ2=μ−μ12
\left\{
\begin{aligned}
&\mu=\mu_1\\
\\\quad
&\delta^2=\mu-\mu_1^2
\end{aligned}
\right.
⎩⎪⎨⎪⎧μ=μ1δ2=μ−μ12
则
μ^=A1=Xˉδ^2=A2−A12=1n∑i=1nXi2−Xˉ=1n∑i=1n(Xi−Xˉ)2
\begin{aligned}
\hat{\mu}&=A_1=\bar{X}\\
\hat{\delta}^2&=A_2-A_1^2\\
&=\frac{1}{n}\sum\limits_{i=1}^n{X^2_i}-\bar{X}\\
&=\frac{1}{n}\sum\limits_{i=1}^n{(X_i-\bar{X})^2}
\end{aligned}
μ^δ^2=A1=Xˉ=A2−A12=n1i=1∑nXi2−Xˉ=n1i=1∑n(Xi−Xˉ)2
例3
设总体XXX在[a,b][a,b][a,b]上服从均匀分布, 其中a,ba, ba,b未知,X1,X2,X3,⋯ ,XnX_1,X_2,X_3,\cdots,X_nX1,X2,X3,⋯,Xn是一个样本,求a,ba, ba,b的估计量。
解:
μ1=E(X)=a+b2μ2=E(X2)=D(X)+[E(X)]2=(a−b)212+(a+b)24
\begin{aligned}
\mu_1&=E(X)=\frac{a+b}{2}\\
\mu_2&=E(X^2)=D(X)+[E(X)]^2\\
&=\frac{(a-b)^2}{12}+\frac{(a+b)^2}{4}
\end{aligned}
μ1μ2=E(X)=2a+b=E(X2)=D(X)+[E(X)]2=12(a−b)2+4(a+b)2
令
A1=a+b2=1n∑i=1nXiA2=(a−b)212+(a+b)24=1n∑i=1nXi2
\begin{aligned}
A_1&=\frac{a+b}{2}=\frac{1}{n}\sum\limits_{i=1}^n{X_i}\\
A_2&=\frac{(a-b)^2}{12}+\frac{(a+b)^2}{4}=\frac{1}{n}\sum\limits_{i=1}^n{X^2_i}
\end{aligned}
A1A2=2a+b=n1i=1∑nXi=12(a−b)2+4(a+b)2=n1i=1∑nXi2
则
{a+b=2A1b−a=12(A2−A12)
\left\{
\begin{aligned}
&a+b=2A_1\\
\\\quad
&b-a=\sqrt{12(A_2-A_1^2)}
\end{aligned}
\right.
⎩⎪⎪⎨⎪⎪⎧a+b=2A1b−a=12(A2−A12)
则a,ba,ba,b的估计量为:
a^=Xˉ−3n∑i=1n(Xi−Xˉ)2b^=Xˉ+3n∑i=1n(Xi−Xˉ)2
\begin{aligned}
&\hat{a}=\bar{X}-\sqrt{\frac{3}{n}\sum\limits^n_{i=1}{(X_i-\bar{X})^2}}\\
&\hat{b}=\bar{X}+\sqrt{\frac{3}{n}\sum\limits^n_{i=1}{(X_i-\bar{X})^2}}
\end{aligned}
a^=Xˉ−n3i=1∑n(Xi−Xˉ)2b^=Xˉ+n3i=1∑n(Xi−Xˉ)2
最大似然估计
似然函数的定义
- 总体X是连续型:设概率密度为f(x;θ)f(x;\theta)f(x;θ),θ\thetaθ为待估参数,θ∈Θ\theta\in\Thetaθ∈Θ,Θ\ThetaΘ是θ\thetaθ可能的取值范围。设X1,X2,X3,⋯ ,XnX_1,X_2,X_3,\cdots,X_nX1,X2,X3,⋯,Xn是来自X的样本,则X1,X2,X3,⋯ ,XnX_1,X_2,X_3,\cdots,X_nX1,X2,X3,⋯,Xn的联合密度为∏i=1nf(x;θ)\prod\limits^n_{i=1}f(x;\theta)i=1∏nf(x;θ),设x1,x2,x3,⋯ ,xnx_1,x_2,x_3,\cdots,x_nx1,x2,x3,⋯,xn为相应样本X1,X2,X3,⋯ ,XnX_1,X_2,X_3,\cdots,X_nX1,X2,X3,⋯,Xn的一个样本值,则随机点(X1,X2,X3,⋯ ,Xn)(X_1,X_2,X_3,\cdots,X_n)(X1,X2,X3,⋯,Xn)落在点x1,x2,x3,⋯ ,xnx_1,x_2,x_3,\cdots,x_nx1,x2,x3,⋯,xn的邻域内的概率近似地为∏i=1nf(x;θ)dxi\prod\limits^n_{i=1}f(x;\theta)dx_ii=1∏nf(x;θ)dxi。则
L(θ)=L(x1,x2,x3,⋯ ,xn;θ)=∏i=1nf(x;θ) L(\theta)=L(x_1,x_2,x_3,\cdots,x_n;\theta)=\prod\limits^n_{i=1}f(x;\theta) L(θ)=L(x1,x2,x3,⋯,xn;θ)=i=1∏nf(x;θ)
L(θ)L(\theta)L(θ)称为样本的似然函数。 - 总体X是离散型:设分布律P{X=x}=p(x;θ)P\{X=x\}=p(x;\theta)P{X=x}=p(x;θ),θ∈Θ\theta\in\Thetaθ∈Θ的形式是已知的,θ\thetaθ为待估参数,Θ\ThetaΘ是θ\thetaθ可能的取值范围。设X1,X2,X3,⋯ ,XnX_1,X_2,X_3,\cdots,X_nX1,X2,X3,⋯,Xn是来自X的样本,则X1,X2,X3,⋯ ,XnX_1,X_2,X_3,\cdots,X_nX1,X2,X3,⋯,Xn的联合分布律为∏i=1np(xi;θ)\prod\limits^n_{i=1}p(x_i;\theta)i=1∏np(xi;θ)
设x1,x2,x3,⋯ ,xnx_1,x_2,x_3,\cdots,x_nx1,x2,x3,⋯,xn为相应样本X1,X2,X3,⋯ ,XnX_1,X_2,X_3,\cdots,X_nX1,X2,X3,⋯,Xn的一个样本值,则X1,X2,X3,⋯ ,XnX_1,X_2,X_3,\cdots,X_nX1,X2,X3,⋯,Xn取到观察值x1,x2,x3,⋯ ,xnx_1,x_2,x_3,\cdots,x_nx1,x2,x3,⋯,xn的概率,即{X1=x1,X2=x2,X3=x3,⋯ ,Xn=xn}\{X_1=x_1,X_2=x_2,X_3=x_3,\cdots,X_n=x_n\}{X1=x1,X2=x2,X3=x3,⋯,Xn=xn}的概率为
L(θ)=L(x1,x2,x3,⋯ ,xn;θ)=∏i=1np(xi;θ),θ∈Θ L(\theta)=L(x_1,x_2,x_3,\cdots,x_n;\theta)=\prod\limits^n_{i=1}p(x_i;\theta),\theta\in\Theta L(θ)=L(x1,x2,x3,⋯,xn;θ)=i=1∏np(xi;θ),θ∈Θ
L(θ)L(\theta)L(θ)称为样本的似然函数
最大似然估计的求解步骤
1.写出似然函数
L(θ)=L(x1,x2,x3,⋯ ,xn;θ)=∏i=1np(xi;θ)L(\theta)=L(x_1,x_2,x_3,\cdots,x_n;\theta)=\prod\limits^n_{i=1}p(x_i;\theta)L(θ)=L(x1,x2,x3,⋯,xn;θ)=i=1∏np(xi;θ)
或者
L(θ)=L(x1,x2,x3,⋯ ,xn;θ)=∏i=1nf(x;θ)L(\theta)=L(x_1,x_2,x_3,\cdots,x_n;\theta)=\prod\limits^n_{i=1}f(x;\theta)L(θ)=L(x1,x2,x3,⋯,xn;θ)=i=1∏nf(x;θ)
2.取对数
lnL(θ)=∑i=1nln p(xi;θ)或者lnL(θ)=∑i=1nln f(xi;θ)
\begin{aligned}
&lnL(\theta)=\sum\limits^n_{i=1}ln\ p(x_i;\theta)\\
&或者\\
&lnL(\theta)=\sum\limits^n_{i=1}ln\ f(x_i;\theta)
\end{aligned}
lnL(θ)=i=1∑nln p(xi;θ)或者lnL(θ)=i=1∑nln f(xi;θ)
3.对θ\thetaθ求导dlnL(θ)dθ\frac{dlnL(\theta)}{d\theta}dθdlnL(θ),并且令dlnL(θ)dθ=0\frac{dlnL(\theta)}{d\theta}=0dθdlnL(θ)=0,解方程即得未知参数θ\thetaθ的最大似然估计值θ^\hat{\theta}θ^。
例题
设总体XXX在[a,b][a,b][a,b]上服从均匀分布, 其中a,ba,ba,b未知,x1,x2,x3,⋯ ,xnx_1,x_2,x_3,\cdots,x_nx1,x2,x3,⋯,xn是来自总体 XXX的一个样本值,求a,ba,ba,b的最大似然估计量。
解:令
xmin=minx1,x2,x3,⋯ ,xnxmax=maxx1,x2,x3,⋯ ,xn
\begin{aligned}
x_{min}=min{x_1,x_2,x_3,\cdots,x_n}
\\x_{max}=max{x_1,x_2,x_3,\cdots,x_n}
\end{aligned}
xmin=minx1,x2,x3,⋯,xnxmax=maxx1,x2,x3,⋯,xn
XXX的概率密度函数为
f(x;a,b)={1b−a,a≤x≤b0,其他
\begin{aligned}
f(x;a,b)={\left\{\begin{aligned}&\frac{1}{b-a},a\leq x\leq b\\
&0,\quad \quad 其他
\end{aligned}
\right.}
\end{aligned}
f(x;a,b)=⎩⎨⎧b−a1,a≤x≤b0,其他
则似然函数为
L(a,b)={1(b−a)n,a≤x1,x2,x3,⋯ ,xn≤b 0,其他
\begin{aligned}
L(a,b)={\left\{\begin{aligned}&\frac{1}{(b-a)^n},a\leq x_1,x_2,x_3,\cdots,x_n\leq b\\
&\quad \ 0,\quad \quad \quad 其他
\end{aligned}
\right.}
\end{aligned}
L(a,b)=⎩⎪⎨⎪⎧(b−a)n1,a≤x1,x2,x3,⋯,xn≤b 0,其他
由于a≤x1,x2,x3,⋯ ,xnvba\leq x_1,x_2,x_3,\cdots,x_nvba≤x1,x2,x3,⋯,xnvb即a≤xmin,xmax≤ba\leq x_{min},x_{max}\leq ba≤xmin,xmax≤b
所以
L(a,b)={1(b−a)n,a≤xmin,xmax≤b 0,其他
\begin{aligned}
L(a,b)={\left\{\begin{aligned}&\frac{1}{(b-a)^n},a\leq x_{min},x_{max}\leq b\\
&\quad \ 0,\quad \quad \quad 其他
\end{aligned}
\right.}
\end{aligned}
L(a,b)=⎩⎪⎨⎪⎧(b−a)n1,a≤xmin,xmax≤b 0,其他
对于满足条件的a≤xmin,xmax≤ba\leq x_{min},x_{max}\leq ba≤xmin,xmax≤b的任意a,ba,ba,b有
L(a,b)=1(b−a)n≤1(xmax−xmin)2
L(a,b)=\frac{1}{(b-a)^n}\leq \frac{1}{(x_{max}-x_{min})^2}
L(a,b)=(b−a)n1≤(xmax−xmin)21
即似然函数在a=xmin,b=xmaxa=x_{min},b=x_{max}a=xmin,b=xmax时取得最大值1(xmax−xmin)2\frac{1}{(x_{max}-x_{min})^2}(xmax−xmin)21。
所以a,ba,ba,b的最大似然估计值为
a^=xmin=min1≤i≤nxib^=xmax=max1≤i≤nxi
\begin{aligned}
\hat{a}=x_{min}=\min\limits_{1\leq i\leq n}x_i
\\\hat{b}=x_{max}=\max\limits_{1\leq i\leq n}x_i
\end{aligned}
a^=xmin=1≤i≤nminxib^=xmax=1≤i≤nmaxxi
a,ba,ba,b的最大似然估计量为
a^=min1≤i≤nXib^=max1≤i≤nXi
\begin{aligned}
\hat{a}=\min\limits_{1\leq i\leq n}X_i
\\\hat{b}=\max\limits_{1\leq i\leq n}X_i
\end{aligned}
a^=1≤i≤nminXib^=1≤i≤nmaxXi