【机器学习入门】交叉熵损失函数与MLE准则

最新推荐文章于 2024-11-12 06:00:00 发布

原创

最新推荐文章于 2024-11-12 06:00:00 发布 · 1.6k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #信息熵 #机器学习

本文介绍了交叉熵损失函数与最大似然估计（MLE）之间的关系，强调它们在监督学习中的重要性。文章通过线性回归、逻辑回归和多分类问题的实例详细解释了交叉熵在不同情况下的应用，并阐述了如何通过最小化交叉熵损失函数来调整模型，使其逼近真实数据分布。

文章目录

0 总结
1 最大似然估计MLE
- 1.1 似然函数与对数似然函数
- 1.2 最大似然估计Maximum Likelihood Estimation
2 相对熵与交叉熵
- 2.1 相对熵
- 2.2 交叉熵
3 举个分类器的例子
4 交叉熵损失函数与MLE准则

0 总结

先放出结论方便查看，细节的推导可以阅读后续章节。

0.1 MLE与交叉熵

MLE准则导出的损失函数与交叉熵损失函数等价，如下：
$J(\pmb\theta)=-\mathbb{E}_{\pmb x,\pmb y\sim P_{data}}[logP_{model}(\pmb y|\pmb x;\pmb\theta)]$
监督学习是给定输入 $\pmb x$ （样本）和输出 $\pmb y$ （标签）来对模型进行训练的一个过程。

从最大似然估计准则的角度看，这个过程可以看成是对条件概率 $P(Y|X;\pmb\theta)$ 的一个最大似然估计过程。
从相对熵和交叉熵的角度看，这个过程可以看成调整 $Q (X)$ 使其逼近 $P (X)$ 的过程，而 $H (P, Q)$ 的最小值就是 $H (P)$ ，那么我们对交叉熵 $H (P, Q)$ 进行最小化而获得的 $Q (X)$ 则应该能够很好逼近 $P (X)$ 。

详见第4节

0.2 交叉熵损失函数具体形式

下列符号中： $N$ 为样本数， $M$ 为类别数

1.线性回归问题

$\begin{aligned} J(\pmb\theta)&=-\mathbb{E}_{\pmb x,\pmb y \sim P_{data}}[logP_{model}(\pmb y| \pmb x;\pmb\theta)]\\ &=\frac{1}{N}||\pmb y -\pmb{\hat y}||^2_2 \end{aligned}$

2.logistic回归（二分类问题）

$J(\pmb\theta)=\frac{1}{N}\sum_{i=1}^N-y_ilog\hat{y_i}-(1-y_i)log(1-\hat{y_i})$ 其中：

$y_i$ 为0或1，若类别为A则为1，类别为B则为0
$\hat{y_i}$ 为模型输出的将样本分类为A的概率，则 $(1-\hat{y_i})$ 为分类成B的概率， $\hat{y_i}=\sigma_{sigmoid}(\pmb\theta^T\pmb{x_i}+b)$

3.多分类问题

$J(\pmb\theta)=-\frac{1}{N}\sum_{i=1}^N\sum_{j=1}^{M}y_{i,j}log\hat{y}_{i,j}$ 其中：

$y_{i,j}$ 为0或1，若类别 $j$ 符合样本 $i$ 则取值为1，不符合则为0
$\hat{y}_{i,j}$ 为模型输出的将样本 $i$ 分类为类别 $j$ 的概率， $\hat{y}_{i,j}=\sigma_{softmax}([\pmb\theta^T\pmb{x_i}+\pmb b]_{j})$
$[\pmb\theta^T\pmb{x_i}+\pmb b]_{j}$ 为输出层的第 $j$ 个输出，可解释作分类为类别 $j$ 的对数概率

1 最大似然估计MLE

1.1 似然函数与对数似然函数

给定一个概率分布 $P (x)$ ，假设该分布由某组参数 $\pmb\theta$ 确定，那么该概率分布可以写成 $P(x;\pmb\theta)$ 的形式。

将参数 $\pmb\theta$ 固定，将 $x$ 看作变量，则 $P(x;\pmb\theta)$ 称为概率分布，可以看作是在参数 $\pmb\theta$ 取到某组具体值的情况下的具体概率分布。
将 $x$ 固定，将 $\theta$ 看作变量，则 $L(\pmb\theta)=P(x;\pmb\theta)$ 称为似然函数。似然函数可以看作是在数据 $x$ 已经被获取的情况下，参数 $\theta$ 在不同取值的情况下 $x$ 发生的概率。