分类中交叉熵损失函数的推导

最新推荐文章于 2023-10-18 14:08:54 发布

原创最新推荐文章于 2023-10-18 14:08:54 发布 · 2k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#1024程序员节

算法相关专栏收录该内容

15 篇文章

订阅专栏

本文探讨了在分类任务中为何使用softmax和交叉熵损失函数。通过数学推导，解释了交叉熵作为损失函数的原因，以及将样本标签转化为one-hot向量的必要性。目标是最小化模型预测概率分布与真实分布之间的KL散度，从而优化模型参数，提高分类准确性。

一般我们在做分类任务中会在模型的最后加入一层softmax去预测样本对于每个类别的概率，然后通过交叉熵损失函数去计算loss，但是交叉熵损失函数为什么能让模型work呢？为什么计算交叉熵损失函数时要把样本标签变成一个one-hot向量呢？下面我们就来讨论一下。

首先我们来描述一下问题： $X=\left \{ (x_i,y_i) \right \}_{1}^{N}$ 表示真实分布中N个样本， $x_i$ 表示其中的一个随机变量， $y_i\epsilon \left \{ 1,2,... ,M\right \}$ 表示随机变量 $x_i$ 的类别标签，M表示总共有M个类别，求新采样的样本 $x_{N+1}$ 属于哪一个类别？

对于这个分类问题，我们一般希望构建一个概率模型，这个概率模型会预测样本在M个类别上的概率，那么M个概率中最大的那个类别标签就是样本的标签。假设 $q_\phi (c|x)$ 就是我们要构建的概率模型， $\phi$ 为模型中需要学习的参数， $x$ 为输入的样本， $c\epsilon \left \{1,2,3,...,M \right \}$ 为类别标签变量，再假设 $p(c|x)$ 为样本 $x$ 在所有类别标签上的真实条件概率分布。下面我们希望概率模型 $q_\phi (c|x)$ 尽可能的与真实分布 $p(c|x)$ 接近，很容易想到KL散度就可以刻画这两个分布的接近程度：

$D_{KL}(p(c|x)||q_\phi (c|x))=E_{p(c|x)}p(c|x)-E_{p(c|x)}q_\phi (c|x)$

由于真实分布是恒定的，所以右边第一项是一个常数，最小化KL散度相当于最小化右边第二项，所以目标函数变为：

$L_\phi (x)=-E_{p(c|x)}q_\phi (c|x)$

由于变量c是离散的，所以目标函数展开有:

$L_\phi (x)=-\sum _{c=1}^{M}p(c|x)q_\phi (c|x)$

这就是我们大名鼎鼎的交叉熵损失函数了，下面对这个损失函数进行一下说明。求和里面第一项 $p(c|x)$ 表示样本 $x$ 属于 $c$ 类别的真实概率，在真实样本-标签中，如果 $x_i$ 属于 $y_i$ 类别，那么该样本对应的 $y_i$ 类别概率为1，即 $p(y_i|x_i)=1$ ，在其他类别上的概率为0，所以计算交叉熵损失函数时要把样本标签变成一个one-hot向量，为1的分量表示该样本属于该类别的概率为1，否则为0。最后最小化上面的目标函数，就可以求出我们模型的参数了。