极大似然估计(Maximum Likelihood Estimate,MLE)
这个名字就很奇怪,又拗口,一直不懂到底什么意思。
先不讲它的原理,直接举个例子看看:
假设有个篮子,里面装了2种球:红球和白球。
问:随便抽一个球,抽到红球的概率是多少?
怎么办?现在假设抽到红球的概率是
p
p
p,则抽到白球的概率是
1
−
p
1-p
1−p。
p
p
p 就是我们要的答案。
为了得到
p
p
p 的值,有一个机灵的小伙子做了一个实验:
他抽了10次球,每次抽完都放回去。结果是10次里面有7次是红球,有3次是白球。
他把这次实验记为事件
A
A
A,则事件
A
A
A 发生的概率为:
P
(
A
)
=
p
7
(
1
−
p
)
3
(1)
P(A) = p^7 (1-p)^3\tag{1}
P(A)=p7(1−p)3(1)
既然事件
A
A
A 已经发生了,说明此时它发生的概率很大,即
P
(
A
)
P(A)
P(A) 很大。
到底有多大不用管,反正大到不能再大,也就是极大。
怎样能让
P
(
A
)
P(A)
P(A) 极大?需要找到合适的
p
p
p 值,使它极大。
记式 (1) 为 F ( p ) F(p) F(p),则 F ( p ) = p 7 ( 1 − p ) 3 (2) F(p) = p^7 (1-p)^3\tag{2} F(p)=p7(1−p)3(2)
对
p
p
p 求导得:
d
F
(
p
)
d
p
=
7
p
6
(
1
−
p
)
3
−
3
p
7
(
1
−
p
)
2
\frac{\text{d}F(p)}{\text{d}p} = 7p^6(1-p)^3 - 3p^7(1-p)^2
dpdF(p)=7p6(1−p)3−3p7(1−p)2
令导数为
0
0
0,则
7
p
6
(
1
−
p
)
3
−
3
p
7
(
1
−
p
)
2
=
0
7
p
6
(
1
−
p
)
3
=
3
p
7
(
1
−
p
)
2
7
(
1
−
p
)
=
3
p
7
−
7
p
=
3
p
p
=
0.7
\begin{aligned} 7p^6(1-p)^3 - 3p^7(1-p)^2 &= 0 \\ 7p^6(1-p)^3 &= 3p^7(1-p)^2 \\ 7(1-p) &= 3p \\ 7 - 7p &= 3p \\ p &= 0.7 \end{aligned}
7p6(1−p)3−3p7(1−p)27p6(1−p)37(1−p)7−7pp=0=3p7(1−p)2=3p=3p=0.7
惊, p p p 求出来是 0.7 0.7 0.7, 0.7 0.7 0.7 就是我们要求的值!真是神奇。
下面整理一下。
这个例子的 F ( p ) F(p) F(p) 叫做似然函数,在这个例子里 F ( p ) = p 7 ( 1 − p ) 3 F(p) = p^7 (1-p)^3 F(p)=p7(1−p)3。(不用纠结它似什么然,它就叫这名字)
我们要找到一个对应的 p p p,使似然函数的值极大,所以就叫做极大似然估计。
用公式是这样表达的: p ^ = arg max p F ( p ) \hat{p} = \arg\max_p F(p) p^=argpmaxF(p)
意思是, p p p 是函数 F ( p ) F(p) F(p) 的参数,而取到 p ^ \hat{p} p^ 的时候可以使函数 F ( p ) F(p) F(p) 的值最大。
这是一个已知函数,求其参数的过程,这个参数是使函数值最大的那个参数。
变量上面的帽子 ^ \hat{ } ^ ,代表这个变量是估计值。 极大似然估计就是要估计它。
求最大值的方法有很多,由于取对数后函数的单调性不变,可以对式 (2) 两边取对数: f ( p ) = ln F ( p ) = ln ( p 7 ( 1 − p ) 3 ) = ln p 7 + ln ( 1 − p ) 3 = 7 ln p + 3 ln ( 1 − p ) \begin{aligned} f(p) = \ln{F(p)} &= \ln{\left(p^7 (1-p)^3\right)} \\ &= \ln{p^7} + \ln{(1-p)^3} \\ &= 7\ln{p} + 3\ln{(1-p)} \end{aligned} f(p)=lnF(p)=ln(p7(1−p)3)=lnp7+ln(1−p)3=7lnp+3ln(1−p)
f ( p ) f(p) f(p) 与 F ( p ) F(p) F(p) 的单调性相同,因此可以代替它来找极(最)大值。
求一阶导: d f ( p ) d p = 7 p − 3 1 − p \frac{\text{d}f(p)}{\text{d}p} = \frac{7}{p} - \frac{3}{1-p} dpdf(p)=p7−1−p3
二阶导:
d
2
f
(
p
)
d
p
2
=
−
7
p
2
−
3
(
1
−
p
)
2
\frac{\text{d}^2f(p)}{\text{d}p^2} = -\frac{7}{p^2} - \frac{3}{(1-p)^2}
dp2d2f(p)=−p27−(1−p)23
可以看出二阶导一定是负数(那2个分母都是平方,必定大于0),因此一阶导是单调递减的,所以一阶导为 0 0 0 的点是极大值点。同时在作用域内是最大值点,解得此时 p = 0.7 p=0.7 p=0.7。
极大似然估计一般用于估计概率模型的参数。
说的是,已知某个随机样本满足某种概率分布(但是其中具体的参数不清楚)。
要对它的参数进行估计:通过若干次试验,观察其结果,利用结果推出参数的大概值。
引用维基百科的介绍:
In statistics, maximum likelihood estimation (MLE) is a method of estimating the parameters of a probability distribution by maximizing a likelihood function, so that under the assumed statistical model the observed data is most probable
在统计学中,极大似然估计是一种通过最大化似然函数,来估计概率分布的参数的方法。