表达式
二分类
在二分的情况下,模型最后需要预测的结果只有两种情况,对于每个类别我们的预测得到的概率为p和1-p。此时表达式为:
![\begin{align}J = −[y\cdot log(p)+(1−y)\cdot log(1−p)]\end{align} \\](https://i-blog.csdnimg.cn/blog_migrate/c2ec8623f30f19e7cd3a6f64fb57679e.png)
其中:
- y——表示样本的label,正类为1,负类为0
- p——表示样本预测为正的概率
多分类
多分类的情况实际上就是对二分类的扩展:

其中:
- M——类别的数量;
- y——指示变量(0或1),如果该类别和样本的类别相同就是1,否则是0;
- p——对于观测样本属于类别c的预测概率。
函数性质

可以看出,该函数是凸函数,求导时能够得到全局最优值。
导函数性质
交叉熵损失函数经常用于分类问题中,特别是在神经网络做分类问题时,也经常使用交叉熵作为损失函数,此外,由于交叉熵涉及到计算每个类别的概率,所以交叉熵几乎每次都和softmax函数一起出现。
我们用神经网络最后一层输出的情况,来看一眼整个模型预测、获得损失和学习的流程:
- 神经网络最后一层得到每个类别的得分scores;
- 该得分经过softmax转换为概率输出;
- 模型预测的类别概率输出与真实类别的one hot形式进行cross entropy损失函数的计算。

下面,我们来推导一下整个求导公式,我们将求导分成三个过程,即拆成三项偏导的乘积:

计算第一项: 
![\begin{align} \frac{\partial J}{\partial p_i} &= \frac{\partial −[ylog(p)+(1−y)log(1−p)]}{\partial p_i} \\ &= -\frac{\partial y_ilogp_i}{\partial p_i}-\frac{\partial (1-y_i)log(1-p_i)}{\partial p_i} \\ &= -\frac{y_i}{p_i}-[(1-y_i)\cdot \frac{1}{1-p_i}\cdot (-1)] \\ &= -\frac{y_i}{p_i}+\frac{1-y_i}{1-p_i} \ \end{align} \\](https://i-blog.csdnimg.cn/blog_migrate/9955be2c04f85eafd771ea5dcec65865.png)
计算第二项:

这一项要计算的是softmax函数对于score的导数,我们先回顾一下分数求导的公式:

考虑k等于i的情况:

考虑k不等于i的情况:

综上可得softmax损失函数的求导结果:

则可统一写成:

计算第三项:

一般来说,scores是输入的线性函数作用的结果,所以有:

计算结果

![\begin{align} \frac{\partial J}{\partial w_i} &= \frac{\partial J}{\partial p_i}\cdot \frac{\partial p_i}{\partial score_i}\cdot \frac{\partial score_i}{\partial w_i} \\ &= [-\frac{y_i}{\sigma(y_i)} + \frac{1-y_i}{1-\sigma(y_i)}]\cdot \sigma(y_i)(1-\sigma(y_i))\cdot x_i \\ &= [-\frac{y_i}{\sigma(y_i)}\cdot \sigma(y_i)\cdot (1-\sigma(y_i))+\frac{1-y_i}{1-\sigma(y_i)}\cdot \sigma(y_i)\cdot (1-\sigma(y_i))]\cdot x_i \\ &= [-y_i+y_i\cdot \sigma(y_i)+\sigma(y_i)-y_i\cdot \sigma(y_i)]\cdot x_i \\ &= [\sigma(y_i)-y_i]\cdot x_i \\ \end{align} \\](https://i-blog.csdnimg.cn/blog_migrate/12acfd589e65276b1bcbda862ee41794.png)
可以看到,我们得到了一个非常漂亮的结果,所以,使用交叉熵损失函数,不仅可以很好的衡量模型的效果,又可以很容易的的进行求导计算。
优点
在用梯度下降法做参数更新的时候,模型学习的速度取决于两个值:一、学习率;二、偏导值。其中,学习率是我们需要设置的超参数,所以我们重点关注偏导值。从上面的式子中,我们发现,偏导值的大小取决于
和
,我们重点关注后者,后者的大小值反映了我们模型的错误程度,该值越大,说明模型效果越差,但是该值越大同时也会使得偏导值越大,从而模型学习速度更快。所以,使用逻辑函数得到概率,并结合交叉熵当损失函数时,在模型效果差的时候学习速度比较快,在模型效果好的时候学习速度变慢。
参考
[1] 神经网络的分类模型 LOSS 函数为什么要用 CROSS ENTROPY
[2] Softmax as a Neural Networks Activation Function
[3] A Gentle Introduction to Cross-Entropy Loss Function

本文深入探讨了交叉熵损失函数在二分类与多分类问题中的应用,解释了其数学表达及函数性质,通过实例展示了神经网络中交叉熵的计算流程,并分析了其在模型训练中的优势。
6525

被折叠的 条评论
为什么被折叠?



