似然函数小结

原创已于 2022-04-05 11:26:17 修改 · 1.2k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #nlp #深度学习 #deep learning

于 2022-04-01 19:31:46 首次发布

深度学习原理专栏收录该内容

4 篇文章

订阅专栏

本文介绍了似然函数的概念及其在统计学中的区别，强调了它在模型参数估计中的作用。通过二分类和多分类问题的例子，解释了似然函数如何衡量模型预测的准确性，并探讨了极大似然估计的求解过程。负对数似然函数和交叉熵损失函数被用来简化优化目标，使模型预测更接近实际观察结果。最小化负对数似然等价于最大化似然函数，从而实现模型的优化。

似然函数

总是被论文中各种各样奇怪的损失函数折磨,干脆就抽半天专门看看这东西

似然函数

似然函数是一种关于模型中参数的函数。“似然性likehood”和概率词义相近，但统计学上是完全不同的含义：

概率用于在已知参数的情况下，预测接下来的观测结果
似然性用于根据一些观测结果，估计给定模型的参数可能值

似然函数的本质就是衡量在某个参数下，整体的估计和真实的情况一样的概率，越大代表越相近。

负对数似然

先从熟悉的两点分布说起，对应二分类问题，其分布律为:
$\mid p)=p^{x}(1-p)^{1-x}= \begin{cases}p & \text { if } x=1 \\ 1-p & \text { if } x=0\end{cases}$
对于多分类问题，只需将其扩展到多项分布，假设X有 $K$ 种可能的取值:
$\begin{aligned} &P\left(X=x \mid p_{1}, p_{2}, \ldots, p_{k}\right)=\prod_{i=1}^{K} p_{i}^{x_{i}} \\ &\sum_{i=1}^{K} p_{i}=\sum_{i=1}^{K} x_{i}=1, x_{i} \in\{0,1\} \end{aligned}$
其中， $p_{i}$ 表示X属于各类别的概率， $x$ 是用one_hot向量表示的类别。
现在假设分类器输出了一组预测概率 $=(p1,p2,…,pk)y_{\text {pred }}=\left(p_{1}, p_{2}, \ldots, p_{k}\right)$ ，我们想知道: 如果以这组概率为多项分布的参数，观测到对应 $=(x1,x2,…,xk)y_{\text {true }}=\left(x_{1}, x_{2}, \ldots, x_{k}\right)$ 的概率是多少。如果观测到 $y_{\text {true }}$ 的概率大，表示模型预测的精准。这就是似然函数:
$L\left(y_{\text {true }} \mid y_{\text {pred }}\right)=\prod_{i=1}^{K} y_{\text {pred }}(i)^{y_{\text {true }}(i)}$

在预测序列为 $y_{pred}$ 情况下,真实序列 $y_{true}$ 出现的可能性越大,表示 $y_{pred}$ 预测的越靠谱,或者说,真实序列 $y_{true}$ 出现时, $y_{pred}$ 表示的是其预测的靠谱程度

我们要做的,就是在 $y_{pred}$ 的取值范围内,**找到能使得 $)L\left(y_{\text {true }} \mid y_{\text {pred }}\right)$ 能够取得最大值(就是在这个 $y_{pred}$ 下,正确序列出现的概率最高)的 $ypred^\hat{y_{pred}}$ ,**由于 $ypred^\hat{y_{pred}}$ 使得似然函数取值达到最大,因此 $ypred^\hat{y_{pred}}$ ,就是参数 $y_{pred}$ 的极大似然估计

未知参数 $y_{pred}$ 取估计值 $ypred^\hat{y_{pred}}$ ,时,获取的到真实序列 $y_{true}$ 的可能性比其他任何情况下都大

如何获得极大似然估计?

问题其实转换为一个求最值的问题,可以对似然函数求导,使得导数为0的 $y_{pred}$ 的取值,就是我们要找的极大似然估计 $ypred^\hat{y_{pred}}$

但①连乘函数求导比较复杂②由于函数 $g (x)$ 和 $ln⁡(g(x))\ln (g(x))$ 的单调性是保持一致的。

因此我们可以选择把似然函数 $L (x)$ 转化为 $ln⁡(L(x))\ln (L(x))$ ，这样连乘就变成了连加:
$L\left(y_{\text {true }} \mid y_{\text {pred }}\right)=\sum_{i=1}^{K} y_{\text {true }}(i) \log \left(y_{\text {pred }}(i)\right)$
此时再对他进行求导就变得容易了，如果方程有唯一解，且是极大值点，那么我们就求得了极大似然估计值。

负对数似然函数和交叉熵损失函数

图像为 $))-\log(L\left(y_{\text {true }} \mid y_{\text {pred }}\right))$ ,损失函数的目的是使得 $y_{pred}$ 预测的跟 $y_{true}$ 越来越接近,

用负对数似然的原理来解释,就是 $)L\left(y_{\text {true }} \mid y_{\text {pred }}\right)$ 取值尽可能大,(但不用找到最大似然估计)

用损失函数的思想,最小化 $))-\log(L\left(y_{\text {true }} \mid y_{\text {pred }}\right))$ 的结果是,使得 $L$ 越来越接近1,即使得 $y_{pred}$ 预测的跟 $y_{true}$ 越来越接近

最小化交叉熵函数的本质就是对数似然函数的最大化。

通常机器学习都是最小化损失函数的，所以我们给 $log⁡(L)\log (L)$ 加上负号，变成负对数似然。最小化负对数似然等价于最大化似然函数，即交叉熵:
$\operatorname{CrossEntropy}\left(y_{\text {true }}, y_{\text {pred }}\right)=-\log (L)=-\sum_{i=1}^{K} y_{\text {true }}(i) \log \left(y_{\text {pred }}(i)\right)$