#极大似然估计 伯努利分布 高斯分布 正态分布
概率分布的参数能以最高的概率产生这些样本。
如果观察到的数据是 D 1 , D 2 , D 3 , . . . , D N D_1, D_2, D_3, ... , D_N D1,D2,D3,...,DN,
那么极大似然的目标如下:
m a x P ( D 1 , D 2 , D 3 , . . . , D N ) max P(D_1, D_2, D_3, ... , D_N) maxP(D1,D2,D3,...,DN)
这里需要计算所有数据的联合概率,这不是件容易的事。
因此在这里引入了, 独立同分布假设,
independent and identically ditributed (i.i.d)
即每个样本出现的概率互不影响。
则现在我们要解决的问题变成:
m a x ∏ i N P ( D i ) max \prod{^N_i} P(D_i) max∏iNP(Di)
对于优化问题,常用的方法是求导数取极值。
如果目标是一个凸函数,那么它导数为0的点,
就是极值点。
但现在公式中有连乘,求导比较麻烦。
这时,将函数取对数,函数的极值点不会改变。
现在公式变为:
m a x ∑ i N l o g P ( D i ) max \sum{^N_i} log P(D_i) max∑iNlogP(Di)
现在求导会变得简单许多。
下面是例子
离散分布
伯努利分布下随机变量的最大似然计算方法。
假设
P ( X = 1 ) = p , P ( X = 0 ) = 1 − p P(X = 1) = p, P(X = 0) = 1-p P(X=1)=p,P(X=0)=1−p
那么
P ( X ) = p X ( 1 − p ) 1 − X P(X) = p^X (1-p)^{1-X} P(X)=pX(1−p)1−X
如果有一组数据D从这个随机变量中采样得来,那么:
m a x p l o g P ( D ) max_p log P(D) maxplogP(D)
= m a x p l o g ∏ i N P ( D i ) = max_p log \prod^N_i P(D_i) =maxplogi∏NP(Di)
= m a x p ∑ i N l o g P ( D i ) = max_p \sum^N_i log P(D_i) =maxpi∑NlogP(D