损失函数理解（一）——极大似然估计

闰土_RUNTU

已于 2025-04-12 20:32:00 修改

阅读量382

点赞数 3

分类专栏：机器/深度学习理论知识文章标签：人工智能损失函数极大似然估计交叉熵深度学习

于 2025-03-22 16:49:46 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_44052271/article/details/146441250

版权

机器/深度学习理论知识专栏收录该内容

2 篇文章

订阅专栏

本博客内容来自B站up主【王木头学科学】的视频内容

习惯看视频的小伙伴可移至视频链接[待补充]：~~~

首先通俗地解释一下极大似然估计（Maximum Likelihood Estimation，MLE）的思想：通过结果寻找使该结果发生的最可能的原因。

对于训练模型来说，模型结构已经预先定义好，我们具体训练的是模型的参数。例如我们构建了一个ResNet-50，想基于手写数字数据集训练一个能识别手写数字的模型。在ResNet-50这个架构下，对应的模型参数有很多种可能，现在我们有手写数字图像以及对应的真实分类标签（这是我们人类的判断结果），训练的目标就是找到能使得手写数字分类结果正确的那一套模型参数（原因）。

似然值：真实情况已经发生，在某个模型下这种情况发生的可能性。所谓极大似然估计就是最大化似然值。

那极大似然估计是如何跟损失函数联系起来的呢？

以二分类任务——以给定图像判断是不是猫为例，对于每一张图像 $x_{i}$ ，我们人类会有一个判断（即标签） $y_{i}$ ，其中 $i$ 表示第 $i$ 张图片， $y_{i}=1$ 表示该图像是猫，0表示不是猫。

如果我们想用极大似然估计的话，似然值可通过如下公式计算：

$P(y_{1},y_{2},...y_{n}|\theta)=\prod _{i=1}^{n}P(y_{i}|\theta)$

其中 $\theta$ 表示模型的参数。公式具体的含义是 $\theta$ 参数下模型能正确判断是不是猫的可能性，我们要找到使这个可能性最大的模型参数。

为什么可以写成相乘的形式，是因为我们假设每个样本是独立同分布的。

给定一张图像，模型会有一个预测结果 $\widehat{y_{i}}$ ，这个预测结果是基于模型参数做出的，因此一定程度上隐含了模型参数，上式可进一步写为：

$\prod _{i=1}^{n}P(y_{i}|\theta)=\prod _{i=1}^{n}P(y_{i}|\widehat{y_{i}})$

由于是二分类， $y_{i}$ 只有0和1两种情况，所以符合伯努利分布。

伯努利分布知识补充

$x\in\{0,1\},\,\,f(x)=p^{x}(1-p)^{1-x}= \begin{cases} p,\,\,x=1\\ 1-p,\,\,x=0\\ \end{cases}$

其中 $p$ 表示 $x=1$ 的概率。

根据伯努利分布重写上述公式得到

$\prod _{i=1}^{n}P(y_{i}|\widehat{y_{i}})=\prod _{i=1}^{n}\widehat{y_{i}}^{y_{i}}(1-\widehat{y_{i}})^{1-y_{i}},\,\,y_{i}\in\{0,1\}$

其中 $\widehat{y_{i}}$ 表示模型预测当前图像是猫的概率。

使用log将连乘操作转变为连加操作：

$log(\prod _{i=1}^{n}\widehat{y_{i}}^{y_{i}}(1-\widehat{y_{i}})^{1-y_{i}})\\=\sum _{i=1}^{n}log(\widehat{y_{i}}^{y_{i}}(1-\widehat{y_{i}})^{1-y_{i}})\\= \sum _{i=1}^{n}[y_{i}\cdot log\widehat{y_{i}}+(1-y_{i})log(1-\widehat{y_{i}})]$