二元交叉熵损失（BCE loss）—特殊的CCE损失

最新推荐文章于 2025-04-15 09:54:09 发布

言一法师

最新推荐文章于 2025-04-15 09:54:09 发布

阅读量1.2k

点赞数 1

分类专栏：深度学习入门文章标签：分类

本文链接：https://blog.youkuaiyun.com/Winterfell01/article/details/132779271

版权

深度学习入门专栏收录该内容

4 篇文章

订阅专栏

二元交叉熵损失（BCE loss）—特殊的CCE损失

什么是二元交叉熵损失？

假如我问你：对于下列图片，以下哪些描述是正确的？

她是奥黛丽·赫本。
她饰演电影《罗马假日》的女主：安妮公主。
她是玛丽莲·梦露。
她在电影《罗马假日》中扮演一位公主。

我们知道正确的答案是：

$y\_\text{true}=\begin{bmatrix}1\\\\1\\\\0\\\\1\end{bmatrix}$

假设我们不知道正确答案，我们根据以下概率猜测：

$y\_\text{pred}=\begin{bmatrix}0.9\\\\0.95\\\\0.7\\\\0.75\end{bmatrix}$

我们可以发现， $y\_\text{true}$ 和 $y\_\text{pred}$ 中的每一个元素都是一个独立问题的答案，因此 $y\_\text{true}$ 和 $y\_\text{pred}$ 中所有元素的和不需要为1。

在判断时，我们可以设置一个门限 $T$ ，比如说 $T = 0.8$ 。若 $y\_\text{pred}_{i}\geq T$ ，则第 $i$ 个描述被认为是对的；若 $y\_\text{pred}_{i}< T$ ，则第 $i$ 个描述被认为是错误的。这个门限的选取对判断谁对谁错具有重要的影响。

假设我们有真实值：

$y\_\text{true}=y=\begin{bmatrix}y_1\\y_2\\y_3\end{bmatrix}$

和预测值：

$y\_\text{pred}=\widehat{y}=\begin{bmatrix}\widehat{y_1}\\\widehat{y_2}\\\widehat{y_3}\end{bmatrix}$

二元交叉熵（Binary Cross-Entropy）损失可以写为：

$\begin{aligned} BCE=-&\frac{1}{N}\sum_{i=1}^{i=N}[y\_\text{true}_{i}\cdot log(y\_\text{pred}_{i})+(1-y\_\text{true}_{i})\cdot log(1-y\_\text{pred}_{i})] \\ BCE=-&\frac{1}{N}\sum_{i=1}^{i=N}[y_{i}\cdot log(\widehat{y_{i}})+(1-y_{i})\cdot log(1-\widehat{y_{i}})] \\ \implies BCE=-&\frac{1}{3}[y_{1}\cdot log(\widehat{y_{1}})+(1-y_{1})\cdot log(1-\widehat{y_{1}})+ \\ &y_2\cdot log(\widehat{y}_2)+(1-y_2)\cdot log(1-\widehat{y}_2)+ \\ &y_3\cdot log(\widehat{y_3})+(1-y_3)\cdot log(1-\widehat{y_3})] \end{aligned}$

其中，‘3’代表 $y\_\text{true}$ 和 $y\_\text{pred}$ 中标量元素的个数。

在Python中，利用Numpy，二元交叉熵损失可以写为：

import numpy as np
np.random.seed(2001716)

# defining BCE
def B_cross_E(y_true, y_pred):
    return -np.mean(y_true * np.log(y_pred) + (1 - y_true) * np.log(1 - y_pred))

如何计算BCE的梯度？

真实值 $y\_\text{true}$ 固定，BCE的值与 $y\_\text{pred}$ 有关，也即与 $(\widehat{y_1},\widehat{y_2},\widehat{y_3})$ 有关。

$f(\widehat{y_1},\widehat{y_2},\widehat{y_3})$

BCE的Jacobian矩阵（函数的一阶偏导数以一定方式排列而成的矩阵）为：

$J=\frac{\partial(BCE)}{(\widehat{y_1},\widehat{y_2},\widehat{y_3})}=\begin{bmatrix}\frac{\partial(BCE)}{\partial(\widehat{y_1})}\\\\\frac{\partial(BCE)}{\partial(\widehat{y_2})}\\\\\frac{\partial(BCE)}{\partial(\widehat{y_3})}\end{bmatrix}$

分别计算Jacobian矩阵中的每一个元素得到：

$\begin{aligned} \Longrightarrow J&=\begin{bmatrix}-\frac{1}{3}(\frac{y_1}{\widehat{y_1}}-\frac{1-y_1}{1-\widehat{y_1}})\\\\-\frac{1}{3}(\frac{y_2}{\widehat{y_2}}-\frac{1-y_2}{1-\widehat{y_2}})\\\\-\frac{1}{3}(\frac{y_3}{\widehat{y_3}}-\frac{1-y_3}{1-\widehat{y_3}})\end{bmatrix} \\ \implies J&=-\dfrac{1}{3}(\begin{bmatrix}y_1\\y_2\\y_3\end{bmatrix}/\begin{bmatrix}\widehat{y_1}\\\widehat{y_2}\\\widehat{y_3}\end{bmatrix}-\begin{bmatrix}1-y_1\\1-y_2\\1-y_3\end{bmatrix}/\begin{bmatrix}1-\widehat{y_1}\\1-\widehat{y_2}\\1-\widehat{y_3}\end{bmatrix}) \\ \Longrightarrow J&=-\frac13(\frac{y\_true}{y\_pred}-\frac{1-y\_true}{1-y\_pred}) \end{aligned}$

在Python中，利用Numpy，二元交叉熵损失的Jacobian矩阵可以写为：

# defining BCE gradients

def B_cross_E_grad(y_true, y_pred):
    N = y_true.shape[0]
    return -(y_true / y_pred - (1 - y_true) / (1 - y_pred)) / N

BCE的优缺点

😀优点：适用于多标签（比如文章开头关于奥黛丽·赫本的例子）和二元分类问题。

BCE loss over.