参数估计之最大似然估计
(本章内容是后面logistic回归和softmax回归的基础)
基本思路:对于离散总体,设有样本观测值x1,x2,⋯ ,xnx_1,x_2,\cdots ,x_nx1,x2,⋯,xn,我们写出该观测值出现的概率,它一般依赖于某个或某些参数,用θ\thetaθ表示,将该概率看成θ\thetaθ的函数,用L(θ)L(\theta)L(θ)表示,称为似然函数:
L(θ)=P(X1=x1,⋯ ,Xn=xn;θ)(1)L(\theta)=P(X_1=x_1,\cdots ,X_n=x_n;\theta) \tag{1}L(θ)=P(X1=x1,⋯,Xn=xn;θ)(1)
求最大似然估计就是找θ\thetaθ的估计值θ^=θ^(x1,⋯ ,xn)\hat {\theta}=\hat {\theta}(x_1,\cdots ,x_n)θ^=θ^(x1,⋯,xn)使得上式的L(θ)L(\theta)L(θ)达到最大。
例子1
设产品分为合格品与不合格品两类,我们用一个随机变量XXX来表示某个产品经检查后的不合格品数,则X=0X=0X=0表示合格品,X=1X=1X=1表示不合格品,则XXX服从二点分布b(1,p)b(1,p)b(1,p),其中ppp是未知的不合格率。先抽取n个产品看是否合格,得到样本x1,⋯ ,xnx_1,\cdots ,x_nx1,⋯,xn,这批观测值发生的概率为:
P(X1=x1,⋯ ,Xn=xn;p)=∏i=1npxi(1−p)1−xi=p∑i=1nxi(1−p)n−∑i=1nxi(2)
\begin{aligned}
P(X_1=x_1,\cdots ,X_n=x_n;p) &= \prod_{i=1}^np^{x_i}(1-p)^{1-x_i}\\
&=p^{\sum_{i=1}^nx_i}(1-p)^{n-\sum_{i=1}^nx_i}
\tag{2}
\end{aligned}
P(X1=x1,⋯,Xn=xn;p)=i=1∏npxi(1−p)1−xi=p∑i=1nxi(1−p)n−∑i=1nxi(2)
似然函数为
L(p)=p∑i=1nxi(1−p)n−∑i=1nxi(3)L(p)=p^{\sum_{i=1}^nx_i}(1-p)^{n-\sum_{i=1}^nx_i} \tag{3}L(p)=p∑i=1nxi(1−p)n−∑i=1nxi(3)
要求ppp使得L(p)L(p)L(p)最大,可将(3)(3)(3)两端取对数并关于ppp求导令其为0(这里其实省略了证明(3)(3)(3)是一个凹函数的过程),得到似然方程:
∂L(p)∂p=0(4)
\frac{\partial{L(p)}}{\partial{p}}=0 \tag{4}
∂p∂L(p)=0(4)
求解(4)(4)(4)即可得到ppp的最大似然估计,为
p^=p^(x1,⋯ ,xn)=1n∑i=1nxi=xˉ(5)
\hat{p}=\hat{p}(x_1,\cdots,x_n)=\frac{1}{n}\sum _{i=1}^{n}x_i=\bar x \tag{5}
p^=p^(x1,⋯,xn)=n1i=1∑nxi=xˉ(5)