分类模型为什么使用交叉熵作为损失函数

原创已于 2025-03-16 17:52:34 修改 · 987 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习

于 2025-01-12 23:18:48 首次发布

推导过程

让推理更有体感，进行下面假设：

假设要对猫、狗进行图片识别分类
假设模型输出 $y$ ，是一个几率，表示是猫的概率

训练资料如下：

$x^n$	类别	$y^n\widehat{y}^n$
$x^1$	猫	1
$x^2$	猫	1
$x^3$	狗	0

注： $x^1$ 是第一组训练资料它是属于猫，因为我们使用one-hot来表示目标类别，所以 $y^in\widehat{y}^n_i$ 要么等于0，要么等于1

损失函数怎么定义比较好？我们优先想到的是判断结果是否和真实值相等

$Loss=[f(x1)≠y^1]+[f(x2)≠y^2]+[f(x3)≠y^3]Loss=[f(x^1) \neq \widehat{y}^1]+[f(x^2) \neq \widehat{y}^2]+[f(x^3) \neq \widehat{y}^3]$
$f(xn)={1，yn>0.50，yn<=0.5f(x^n)= \begin{dcases} 1 ， y^n > 0.5 \\ 0 ，y^n <=0.5 \end{dcases}$
只需要找到 $w∗,b∗=arg⁡minw,bL(w,b)w^*,b^*=\arg\underset{w,b}{min}L(w,b)$ 使得Loss最小即可
但是上面的 $f(x^n)$ 无法进行微分，不能计算梯度

所以重新寻找Loss函数：
$Loss=f(x^1)+f(x^2)+(1-f(x^3))= y^1+y^2+(1-y^3)$
Loss越大说明和训练集越相似，效果越好，我们希望找到一个 $w∗,b∗=arg⁡maxw,bL(w,b)w^*,b^*=\arg\underset{w,b}{max}L(w,b)$ 使得Loss最大

但是Loss多大算大？我们还是希望找到一个最小Loss，最好趋近于0
所以对Loss再次变形，对Loss加一个负 $l n$ ，我们就可以求Loss的最小值了
$w∗,b∗=arg⁡maxw,bL(w,b)=arg⁡minw,b−lnL(w,b)w^*,b^*=\arg\underset{w,b}{max}L(w,b)=\arg\underset{w,b}{min}-lnL(w,b)$

推导：
$Loss=-[lnf(x^1)+lnf(x^2)+(1-lnf(x^3))]$

因为 $y^in\widehat{y}^n_i$ 要么等于0，要么等于1，所以可得： ${lnf(xn)=y^nlnf(xn)+(1−y^n)ln(1−lnf(xn))1−lnf(xn)=y^nlnf(xn)+(1−y^n)ln(1−lnf(xn))\begin{dcases} lnf(x^n)=\widehat{y}^nlnf(x^n)+(1-\widehat{y}^n)ln(1-lnf(x^n)) \\ 1-lnf(x^n)=\widehat{y}^nlnf(x^n)+(1-\widehat{y}^n)ln(1-lnf(x^n)) \end{dcases}$

$=−[y^1lnf(x1)+(1−y^1)ln(1−lnf(x1))+y^2lnf(x2)+(1−y^2)ln(1−lnf(x2))+y^3lnf(x3)+(1−y^3)ln(1−lnf(x3))]=-[\widehat{y}^1lnf(x^1)+(1-\widehat{y}^1)ln(1-lnf(x^1))+\widehat{y}^2lnf(x^2)+(1-\widehat{y}^2)ln(1-lnf(x^2))+\widehat{y}^3lnf(x^3)+(1-\widehat{y}^3)ln(1-lnf(x^3))]$

$=−∑[y^nlnf(xn)+(1−y^n)ln(1−lnf(xn))]=-\sum[\widehat{y}^nlnf(x^n)+(1-\widehat{y}^n)ln(1-lnf(x^n))]$

设： $p (x)$ 为二项分布，其中 $p(1)=y^np(1)=\widehat{y}^n$ ， $p(0)=1−y^np(0)=1-\widehat{y}^n$
设： $q (x)$ 为二项分布，其中 $q(1)=f(x^n)$ ， $q(0)=1-f(x^n)$
$=−∑i=1Np(x)ln(q(x))=-\displaystyle\sum_{i=1}^Np(x)ln(q(x))$
$=∑i=1Np(x)ln(1q(x))=\displaystyle\sum_{i=1}^Np(x)ln(\frac{1}{q(x)})$

**交叉熵（cross entropy）**的数学公式如下：
![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/9dcfc80e77e349bdb2f256cbb4097b49.png

如果我们把模型输出和真实值看做是一个二项分布的话，那么Loss的最终定义就是这两个二项分布越接近越好

交叉熵可在神经网络中作为损失函数，p表示真实标记的分布，q则为训练后的模型的预测标记分布，交叉熵损失函数可以衡量p与q的相似性。交叉熵作为损失函数还有一个好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题，因为学习速率可以被输出的误差所控制。

问题

为什么不使用平均方差作为Loss函数呢？

假设 $Loss=12∑(f(xn)−y^n)2Loss=\frac{1}{2}\sum(f(x^n)-\widehat{y}^n)^2$
假设用的是sigmoid函数

求导之后：
在这里插入图片描述
注： $f (x)$ 的导数是 $f (x) (1 - f (x))$
对于红色字体中的式子来说：
当y=1，f(x) = 1的时候，gradient=0，那么暂停训练是合理的
但y=1，f(x) = 0，这个时候和实际值有差距，应该继续训练，但gradient=0了