似然与极大似然估计

最新推荐文章于 2024-03-02 09:05:23 发布

FarmerJohn

最新推荐文章于 2024-03-02 09:05:23 发布

阅读量4.1k

点赞数 6

分类专栏：统计学机器学习文章标签：似然估计极大似然估计 MLE likelihood EM

原文链接：http://fangs.in/post/thinkstats/likelihood/

版权

统计学同时被 2 个专栏收录

30 篇文章

订阅专栏

机器学习

14 篇文章

订阅专栏

本文转自：似然与极大似然估计

似然与概率

在统计学中，似然函数（likelihood function，通常简写为likelihood，似然）是一个非常重要的内容，在非正式场合似然和概率（Probability）几乎是一对同义词，但是在统计学中似然和概率却是两个不同的概念。概率是在特定环境下某件事情发生的可能性，也就是结果没有产生之前依据环境所对应的参数来预测某件事情发生的可能性，比如抛硬币，抛之前我们不知道最后是哪一面朝上，但是根据硬币的性质我们可以推测任何一面朝上的可能性均为50%，这个概率只有在抛硬币之前才是有意义的，抛完硬币后的结果便是确定的；而似然刚好相反，是在确定的结果下去推测产生这个结果的可能环境（参数），还是抛硬币的例子，假设我们随机抛掷一枚硬币1,000次，结果500次人头朝上，500次数字朝上（实际情况一般不会这么理想，这里只是举个例子），我们很容易判断这是一枚标准的硬币，两面朝上的概率均为50%，这个过程就是我们运用出现的结果来判断这个事情本身的性质（参数），也就是似然。

结果和参数相互对应的时候，似然和概率在数值上是相等的，如果用 $\theta$ 表示环境对应的参数，表示结果，那么概率可以表示为：

$P(x|\theta )$

$P(x|\theta )$ 是条件概率的表示方法， $\theta$ 是前置条件，理解为在 $\theta$ 的前提下，事件 $\theta$ 发生的概率，相对应的似然可以表示为：

$\mathcal{L}(\theta |x)$

可以理解为已知结果为，参数为 $\theta$ (似然函数里 $\theta$ 是变量，这里说的参数和变量是相对与概率而言的)对应的概率，即：

$\mathcal{L}(\theta |x)=P(x|\theta )$

需要说明的是两者在数值上相等，但是意义并不相同， $\mathcal{L}$ 是关于 $\theta$ 的函数，而则是关于的函数，两者从不同的角度描述一件事情。

举个例子

以伯努利分布（Bernoulli distribution，又叫做两点分布或0-1分布）为例：

$f(x;p)=\left\{ \begin{aligned} p & \text{ & if } x=1 \\ 1-p & \text{ & if } x=0 \end{aligned} \right.$

也可以写成以下形式：

$f(x;p)=p^x(1-p)^{1-x}, \text{ & } x\in\{0,1\}$

这里注意区分 f(x;p) 与前面的条件概率的区别，分号后的仅表示依赖于的值，并不是的前置条件，而只是这个概率分布的一个参数而已，也可以省略分号后的内容：

$f(x)=p^x(1-p)^{1-x}, \text{ & } x\in\{0,1\}$

对于任意的参数我们都可以画出伯努利分布的概率图，当 p=0.5 时：

f(x)=0.5

我们可以得到下面的概率密度图：

从似然的角度出发，假设我们观测到的结果是 x=0.5 （即某一面朝上的概率是50%，这个结果可能是通过几千次几万次的试验得到的，总之我们现在知道这个结论），可以得到以下的似然函数：

$\mathcal{L}(p|x=0.5)=p^{0.5}(1-p)^{0.5}$

对应的图是这样的：

与概率分布图不同的是，似然函数是一个(0, 1)内连续的函数，所以得到的图也是连续的，我们很容易看出似然函数的极值（也是最大值）在 p=0.5 处得到，通常不需要做图来观察极值，令似然函数的偏导数为零即可求得极值条件。

ps. 似然函数里的描述的是硬币的性质而非事件发生的概率（比如 p=0.5 描述的是一枚两面均匀的硬币）。为了避免混淆，可以用其他字母来表示这个性质，如果我们用 $\pi$ 来表示，那么似然函数就可以写成：

$\mathcal{L}(\pi|x=0.5)=\pi^{0.5}(1-\pi)^{0.5}$

似然函数的最大值

似然函数的最大值意味着什么？让我们回到概率和似然的定义，概率描述的是在一定条件下某个事件发生的可能性，概率越大说明这件事情越可能会发生；而似然描述的是结果已知的情况下，该事件在不同条件下发生的可能性，似然函数的值越大说明该事件在对应的条件下发生的可能性越大。

现在再来看看之前提到的抛硬币的例子：

$\mathcal{L}(p|x=0.5)=p^{0.5}(1-p)^{0.5}$

上面的（硬币的性质）就是我们说的事件发生的条件， $\mathcal{L}$ 描述的是性质不同的硬币，任意一面向上概率为50% 的可能性有多大，是不是有点绕？让我们来定义 A：

A=事件的结果=任意一面向上概率为50%

那么 $\mathcal{L}$ 描述的是性质不同的硬币，A 事件的可能性有多大，这么一说是不是清楚多了？

在很多实际问题中，比如机器学习领域，我们更关注的是似然函数的最大值，我们需要根据已知事件来找出产生这种结果最有可能的条件，目的当然是根据这个最有可能的条件去推测未知事件的概率。在这个抛硬币的事件中，可以取 [0, 1] 内的所有值，这是由硬币的性质所决定的，显而易见的是 p=0.5 这种硬币最有可能产生我们观测到的结果。

对数化的似然函数

实际问题往往要比抛一次硬币复杂得多，会涉及到多个独立事件，在似然函数的表达式中通常都会出现连乘：

$\mathcal{L}=\prod _{i=1}^Np_i$

对多项乘积的求导往往非常复杂，但是对于多项求和的求导却要简单的多，对数函数不改变原函数的单调性和极值位置，而且根据对数函数的性质可以将乘积转换为加减式，这可以大大简化求导的过程：

$log(\mathcal{L})=log(\prod _{i=1}^Np_i)=\sum _{i=1}^Nlog(p_i)$

在机器学习的公式推导中，经常能看到类似的转化。

补充一个例子

举个别人博客中的例子，假如有一个罐子，里面有黑白两种颜色的球，数目多少不知，两种颜色的比例也不知。我们想知道罐中白球和黑球的比例，但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来，记录球的颜色，然后把拿出来的球再放回罐中。这个过程可以重复，我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中，有七十次是白球，请问罐中白球所占的比例最有可能是多少？很多人马上就有答案了：70%。而其后的理论支撑是什么呢？

我们假设罐中白球的比例是，那么黑球的比例就是 1-p 。因为每抽一个球出来，在记录颜色之后，我们把抽出的球放回了罐中并摇匀，所以每次抽出来的球的颜色服从同一独立分布。这里我们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中，七十次是白球的概率是 P(Data | M) ，这里Data是所有的数据，M是所给出的模型，表示每次抽出来的球是白色的概率为。如果第一抽样的结果记为 x_1 ，第二抽样的结果记为 x_2 ... 那么 $Data = (x_1,x_2,...,x_{100})$ 。则：

$P(Data|M)= P(x_1,x_2,...,x_{100}|M) \par\qquad\qquad\quad\ = P(x_1|M)P(x_2|M)...P(x_{100}|M) \par\qquad\qquad\quad\ = p^{70}(1-p)^{30}.$

那么p在取什么值的时候， P(Data | M) 的值最大呢？将 $p^{70}(1-p)^{30}$ 对求导，并其等于零。

　　　　 $70p^{69}(1-p)^{30}-p^{70}*30(1-p)^{29}=0$

　　　　解方程可以得到 p=0.7 。

在边界点 p=0,1 ， P(Data | M)=0 。所以当 p=0.7 时，的值最大。这和我们常识中按抽样中的比例来计算的结果是一样的。

假如我们有一组连续变量的采样值 (x_1,x_2,...,x_n) ，我们知道这组数据服从正态分布，标准差已知。请问这个正态分布的期望值为多少时，产生这个已有数据的概率最大？

　　　　 P(Data | M)=?

根据公式

è¿éåå¾çæè¿°

由上可知最大似然估计的一般求解过程：

　　（1）写出似然函数；

　　（2）对似然函数取对数，并整理；

　　（3）求导数；

　　（4）解似然方程。

EM算法

本部分摘自：如何通俗理解EM算法

某些复杂情况下（存在隐变量时），单纯采用MLE算法难以解决，这时需要EM算法登场了。EM算法的常见应用场景：高斯混合模型GMM、隐马尔科夫模型HMM、概率主成份分析pPCA等非监督学习方法。

EM算法的解释（Wikipedia）：

最大期望算法（Expectation-maximization algorithm，又译为期望最大化算法），是在概率模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐性变量。

最大期望算法经过两个步骤交替进行计算，

第一步是计算期望（E），利用对隐藏变量的现有估计值，计算其最大似然估计值；
第二步是最大化（M），最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中，这个过程不断交替进行。

以下通过一个例子来简单理解EM算法。

两枚硬币A和B，假定随机抛掷后正面朝上概率分别为PA，PB。为了估计这两个硬币朝上的概率，咱们轮流抛硬币A和B，每一轮都连续抛5次，总共5轮：

硬币	结果	统计
A	正正反正反	3正-2反
B	反反正正反	2正-3反
A	正反反反反	1正-4反
B	正反反正正	3正-2反
A	反正正反反	2正-3反

硬币A被抛了15次，在第一轮、第三轮、第五轮分别出现了3次正、1次正、2次正，所以很容易估计出PA，类似的，PB也很容易计算出来，如下：

PA = （3+1+2）/ 15 = 0.4
PB= （2+3）/10 = 0.5

问题来了，如果我们不知道抛的硬币是A还是B呢（即硬币种类是隐变量），然后再轮流抛五轮，得到如下结果：

硬币	结果	统计
Unknown	正正反正反	3正-2反
Unknown	反反正正反	2正-3反
Unknown	正反反反反	1正-4反
Unknown	正反反正正	3正-2反
Unknown	反正正反反	2正-3反

现在我们的目标没变，还是估计PA和PB，需要怎么做呢？

显然，此时我们多了一个硬币种类的隐变量，设为z，可以把它认为是一个5维的向量（z1,z2,z3,z4,z5)，代表每次投掷时所使用的硬币，比如z1，就代表第一轮投掷时使用的硬币是A还是B。

但是，这个变量z不知道，就无法去估计PA和PB，所以，我们必须先估计出z，然后才能进一步估计PA和PB。
可要估计z，我们又得知道PA和PB，这样我们才能用极大似然概率法则去估计z，这不是鸡生蛋和蛋生鸡的问题吗，如何破？
答案就是先随机初始化一个PA和PB，用它来估计z，然后基于z，还是按照最大似然概率法则去估计新的PA和PB，如果新的PA和PB和我们初始化的PA和PB一样，请问这说明了什么？

这说明我们初始化的PA和PB是一个相当靠谱的估计！

就是说，我们初始化的PA和PB，按照最大似然概率就可以估计出z，然后基于z，按照最大似然概率可以反过来估计出P1和P2，当与我们初始化的PA和PB一样时，说明是P1和P2很有可能就是真实的值。这里面包含了两个交互的最大似然估计。

如果新估计出来的PA和PB和我们初始化的值差别很大，怎么办呢？就是继续用新的P1和P2迭代，直至收敛。

我们不妨这样，先随便给PA和PB赋一个值，比如：
硬币A正面朝上的概率PA = 0.2
硬币B正面朝上的概率PB = 0.7

然后，我们看看第一轮抛掷最可能是哪个硬币。
如果是硬币A，得出3正2反的概率为 0.2*0.2*0.2*0.8*0.8 = 0.00512
如果是硬币B，得出3正2反的概率为0.7*0.7*0.7*0.3*0.3=0.03087
然后依次求出其他4轮中的相应概率。做成表格如下（标粗表示其概率更大）：

轮数	若是硬币A	若是硬币B
1	0.00512，即0.2 0.2 0.2 0.8 0.8，3正-2反	0.03087，3正-2反
2	0.02048，即0.2 0.2 0.8 0.8 0.8，2正-3反	0.01323，2正-3反
3	0.08192，即0.2 0.8 0.8 0.8 0.8，1正-4反	0.00567，1正-4反
4	0.00512，即0.2 0.2 0.2 0.8 0.8，3正-2反	0.03087，3正-2反
5	0.02048，即0.2 0.2 0.8 0.8 0.8，2正-3反	0.01323，2正-3反