第一章.统计学习方法概论.1.2 极大似然估计

最新推荐文章于 2021-10-04 10:58:06 发布

原创最新推荐文章于 2021-10-04 10:58:06 发布 · 302 阅读

0 ·

CC 4.0 BY-SA版权

统计学习方法专栏收录该内容

36 篇文章

订阅专栏

本文通过抛硬币实验介绍最大似然估计(MLE)的基本原理。详细解释了如何利用已知观测结果反推最佳参数估计值的过程，并给出了具体实例。

文章目录

抛硬币
例子
MLE
总结

本课程来自深度之眼，部分截图来自课程视频以及李航老师的《统计学习方法》第二版。
公式输入请参考：在线Latex公式

抛硬币

先要想明白的是，硬币出现某一个面的几率不是0.5，那个是理论上的几率，实际的硬币每个重量，丢的人都会影响某个面出现的几率。我们假设在掷硬币实验中估计出现正面向上的概率为 $\theta$ ，反面向上的概率则为 $1-\theta$
抛硬币这个事情可以表示为：
$x_i=\begin{cases} &1 \text{, 正 } \\ & 0\text{, 负} \end{cases}\quad x_i\sim B(1,\theta)$
把上面的表示写成一个式子，即概率函数可以表示为：
$P(X=x)=\theta^x(1-\theta)^{1-x}$
写开后和上面的效果是一样的。
$\begin{cases} &P(X=0)=\theta^0(1-\theta)=1-\theta\\ & P(X=1)=\theta^1(1-\theta)^0 =\theta \end{cases}$

例子

结合具体的数字，假如丢五次，结果是正反反正正（10011），那么
$P=\theta(1-\theta)(1-\theta)\theta\theta=\theta^3(1-\theta)^2$
这里再给出似然函数的定义：
$L(\theta)=P(X_1=x_1|\theta)\cdots P(X_n=x_n|\theta)\\ =\prod_{i=1}^n \theta^{x_i}(1-\theta)^{1-x_i}$
那么上面丢五次的似然函数计算结果为：
$L(\theta)=P(X_1=1|\theta)P(X_2=0|\theta)P(X_3=0|\theta)P(X_4=1|\theta)P(X_5=1|\theta)\\=\theta^3(1-\theta)^2$

MLE

接下来要最大化似然函数，即 $\max L(\theta)$ ，由于似然函数) $L(\theta)$ 是多个概率的连乘，每个概率都是小于1的，那么连乘多次后计算机精度无法表达很小很小的数字，会产生下溢出，因此要对似然函数求 $\ln$ 将很小的值映射到一个大的值上（另外一个原因是可以把连乘变连加： $\ln xy=\ln x+\ln y$ ）。而且 $L(\theta)$ 和 $\ln L(\theta)$ 都是递增的，因此 $\max L(\theta)$ 和 $\max \ln L(\theta)$ 等价，因此似然函数可以写为：
$\begin{aligned} \ln L(\theta)& =\ln \prod_{i=1}^n \theta^{x_i}(1-\theta)^{1-x_i}\\ &=\sum_{i=1}^n[\ln \theta^{x_i}+\ln (1-\theta)^{1-x_i}] \\ & = \sum_{i=1}^n\ln \theta^{x_i}+\sum_{i=1}^n\ln (1-\theta)^{1-x_i}\\ &= \sum_{i=1}^nx_i\ln \theta+\sum_{i=1}^n(1-x_i)\ln (1-\theta)\\ &= \sum_{i=1}^nx_i\ln \theta+(n-\sum_{i=1}^nx_i)\ln (1-\theta)) \end{aligned}$
然后要对变形后似然函数求最大，由于求极值就是一阶导数为0的位置，因此要对上面的式子求导数（这里用到 $(\ln \theta)'=\cfrac{1}{\theta}$ ）：
$\cfrac{\partial\ln L(\theta)}{\partial \theta}= \sum_{i=1}^nx_i\cfrac{1}{\theta}+\left [(n-\sum_{i=1}^nx_i)\cfrac{1}{1-\theta}\right ](-1)=0$
$\cfrac{ \sum_{i=1}^nx_i}{\theta}=\cfrac{n-\sum_{i=1}^nx_i}{1-\theta}$
$(1-\theta)\sum_{i=1}^nx_i=\theta(n-\sum_{i=1}^nx_i)$
$\sum_{i=1}^nx_i-\theta\sum_{i=1}^nx_i=n\theta-\theta\sum_{i=1}^nx_i$
$n\theta=\sum_{i=1}^nx_i$
最后得到参数的估计值为：
$\hat \theta=\cfrac{\sum_{i=1}^nx_i}{n}$
用上面的例子来解释一下这个式子，当我们把 $\theta$ 设成这个值以后，连续丢五次硬币出现10011这个序列的概率是最大的。
一个模型（ $y=f(x|\theta)$ ）当中有很多的参数，每次吃一个输入 $x$ ，可以观察到模型的输出 $y$ ，对于丢硬币这个事情，输入就是丢一次硬币，输出就是看硬币的正反面。现在我们要根据输入和输出来估计在怎样的参数条件下，我们得到的输出可能性最高。