分类交叉熵损失（CCE loss）—最重要的损失函数

言一法师

已于 2023-09-09 16:54:29 修改

阅读量833

点赞数

分类专栏：深度学习入门文章标签：分类

于 2023-09-09 16:45:52 首次发布

本文链接：https://blog.youkuaiyun.com/Winterfell01/article/details/132779262

版权

深度学习入门专栏收录该内容

4 篇文章

订阅专栏

分类交叉熵损失（CCE loss）—最重要的损失函数

什么是分类交叉熵损失？

假设我问你这个人是谁？

我给你三个选项：

玛丽莲·梦露
奥黛丽·赫本
安吉丽娜·朱莉

我们都知道她是奥黛丽·赫本，所以正确答案是：

$y\_\text{true}=\begin{bmatrix}0\\\\1\\\\0\end{bmatrix}$

假设你不知道她是谁，你根据以下概率分布猜测：

$y\_\text{pred}=\begin{bmatrix}0.2\\\\0.45\\\\0.35\end{bmatrix}$

针对’这个人是谁?'这个问题，因为 $y\_\text{true}$ 和 $y\_\text{pred}$ 分别是对应同一个问题三个不同选项的真实答案和预测概率，因此它们的所有元素和为1。

我们认为 $y\_\text{pred}$ 中概率最大的那个对应的选项就是正确答案。因此，上面 $y\_\text{pred}$ 的预测是正确的，因为第二个0.45是最大的，对应预测结果是奥黛丽·赫本。但我们认为这个结果还不够好，因为0.45离1还有一定的距离。

我们使用分类交叉熵损失（CCE loss）来解决这个问题。

假设我们有真实值：

$y\_\text{true}=y=\begin{bmatrix}y_1\\y_2\\y_3\end{bmatrix}$

和预测值：

$y\_\text{pred}=\widehat{y}=\begin{bmatrix}\widehat{y_1}\\\widehat{y_2}\\\widehat{y_3}\end{bmatrix}$

分类交叉熵（Categorical Cross-Entropy）损失可以写为：

$\begin{aligned} CCE&=-\sum_{i=1}^{i=N}y_{-}\text{true}_{i}\cdot log(y_{-}\text{pred}_{i}) \\ CCE&=-\sum_{i=1}^{i=N}y_{i}\cdot log(\widehat{y_{i}}) \\ \Longrightarrow CCE&=-[y_{1}\cdot log(\widehat{y_{1}})+y_{2}\cdot log(\widehat{y_{2}})+y_{3}\cdot log(\widehat{y_{3}})] \end{aligned}$

在Python中，利用Numpy，分类交叉熵损失可以写为：

import numpy as np
np.random.seed(2001716)

# defining CCE
def cross_E(y_true, y_pred):
    return -np.sum(y_true * np.log(y_pred + 10 ** -100))

如何计算CCE的梯度？

真实值 $y\_\text{true}$ 固定，CCE的值与 $y\_\text{pred}$ 有关，也即与 $(\widehat{y_1},\widehat{y_2},\widehat{y_3})$ 有关。

$f(\widehat{y_1},\widehat{y_2},\widehat{y_3})$

CCE的Jacobian矩阵（函数的一阶偏导数以一定方式排列而成的矩阵）为：

$J=\frac{\partial(CCE)}{(\widehat{y_1},\widehat{y_2},\widehat{y_3})}=\begin{bmatrix}\frac{\partial(CCE)}{\partial(\widehat{y_1})}\\\\\frac{\partial(CCE)}{\partial(\widehat{y_2})}\\\\\frac{\partial(CCE)}{\partial(\widehat{y_3})}\end{bmatrix}$

分别计算Jacobian矩阵中的每一个元素得到：

$\begin{aligned} \implies J&=\begin{bmatrix}\frac{-y_1}{\widehat{y_1}}\\\\\frac{-y_2}{\widehat{y_2}}\\\\\frac{-y_3}{\widehat{y_3}}\end{bmatrix} \\ \implies J& =-(\begin{bmatrix}y_1\\\\y_2\\\\y_3\end{bmatrix}/\begin{bmatrix}\widehat{y_1}\\\\\widehat{y_2}\\\\\widehat{y_3}\end{bmatrix}) \\ \implies J&=-\frac{y\_\text{true}}{y\_\text{pred}} \end{aligned}$

在Python中，利用Numpy，分类交叉熵损失的Jacobian矩阵可以写为：

# defining CCE gradients

def cross_E_grad(y_true, y_pred):
    return -y_true / (y_pred + 10 ** -100)

CCE的优缺点

😀优点：CCE可以严重地惩罚错误的预测；可以很好地解决多分类问题。

CCE loss over.