简单的交叉熵损失函数

原文:https://blog.youkuaiyun.com/red_stone1/article/details/80735068 
 

说起交叉熵损失函数「Cross Entropy Loss」,脑海中立马浮现出它的公式:

L=−[ylog y^+(1−y)log (1−y^)]
我们已经对这个交叉熵函数非常熟悉,大多数情况下都是直接拿来使用就好。但是它是怎么来的?为什么它能表征真实样本标签和预测概率之间的差值?上面的交叉熵函数是否有其它变种?也许很多朋友还不是很清楚!没关系,接下来我将尽可能以最通俗的语言回答上面这几个问题。

1. 交叉熵损失函数的数学原理

我们知道,在二分类问题模型:例如逻辑回归「Logistic Regression」、神经网络「Neural Network」等,真实样本的标签为 [0,1],分别表示负类和正类。模型的最后通常会经过一个 Sigmoid 函数,输出一个概率值,这个概率值反映了预测为正类的可能性:概率越大,可能性越大。

Sigmoid 函数的表达式和图形如下所示:

g(s)=11+e−s

这里写图片描述


其中 s 是模型上一层的输出,Sigmoid 函数有这样的特点:s = 0 时,g(s) = 0.5;s >> 0 时, g ≈ 1,s << 0 时,g ≈ 0。显然,g(s) 将前一级的线性输出映射到 [0,1] 之间的数值概率上。这里的 g(s) 就是交叉熵公式中的模型预测输出 。

我们说了,预测输出即 Sigmoid 函数的输出表征了当前样本标签为 1 的概率:

y^=P(y=1|x)
很明显,当前样本标签为 0 的概率就可以表达成:

1−y^=P(y=0|x)
重点来了,如果我们从极大似然性的角度出发,把上面两种情况整合到一起:

P(y|x)=y^y⋅(1−y^)1−y
不懂极大似然估计也没关系。我们可以这么来看:

当真实样本标签 y = 0 时,上面式子第一项就为 1,概率等式转化为:

P(y=0|x)=1−y^
当真实样本标签 y = 1 时,上面式子第二项就为 1,概率等式转化为:

P(y=1|x)=y^
两种情况下概率表达式跟之前的完全一致,只不过我们把两种情况整合在一起了。

重点看一下整合之后的概率表达式,我们希望的是概率 P(y|x) 越大越好。首先,我们对 P(y|x) 引入 log 函数,因为 log 运算并不会影响函数本身的单调性。则有:

log P(y|x)=log(y^y⋅(1−y^)1−y)=ylog y^+(1−y)log(1−y^)
我们希望 log P(y|x) 越大越好,反过来,只要 log P(y|x) 的负值 -log P(y|x) 越小就行了。那我们就可以引入损失函数,且令 Loss = -log P(y|x)即可。则得到损失函数为:

L=−[ylog y^+(1−y)log (1−y^)]
非常简单,我们已经推导出了单个样本的损失函数,是如果是计算 N 个样本的总的损失函数,只要将 N 个 Loss 叠加起来就可以了:

L=∑i=1Ny(i)log y^(i)+(1−y(i))log (1−y^(i))
这样,我们已经完整地实现了交叉熵损失函数的推导过程。

2. 交叉熵损失函数的直观理解

可能会有读者说,我已经知道了交叉熵损失函数的推导过程。但是能不能从更直观的角度去理解这个表达式呢?而不是仅仅记住这个公式。好问题!接下来,我们从图形的角度,分析交叉熵函数,加深大家的理解。

首先,还是写出单个样本的交叉熵损失函数:

L=−[ylog y^+(1−y)log (1−y^)]
我们知道,当 y = 1 时:

L=−log y^
这时候,L 与预测输出的关系如下图所示:

这里写图片描述

看了 L 的图形,简单明了!横坐标是预测输出,纵坐标是交叉熵损失函数 L。显然,预测输出越接近真实样本标签 1,损失函数 L 越小;预测输出越接近 0,L 越大。因此,函数的变化趋势完全符合实际需要的情况。

当 y = 0 时:

L=−log (1−y^)
这时候,L 与预测输出的关系如下图所示:

这里写图片描述

同样,预测输出越接近真实样本标签 0,损失函数 L 越小;预测函数越接近 1,L 越大。函数的变化趋势也完全符合实际需要的情况。

从上面两种图,可以帮助我们对交叉熵损失函数有更直观的理解。无论真实样本标签 y 是 0 还是 1,L 都表征了预测输出与 y 的差距。

另外,重点提一点的是,从图形中我们可以发现:预测输出与 y 差得越多,L 的值越大,也就是说对当前模型的 “ 惩罚 ” 越大,而且是非线性增大,是一种类似指数增长的级别。这是由 log 函数本身的特性所决定的。这样的好处是模型会倾向于让预测输出更接近真实样本标签 y。

3. 交叉熵损失函数的其它形式

什么?交叉熵损失函数还有其它形式?没错!我刚才介绍的是一个典型的形式。接下来我将从另一个角度推导新的交叉熵损失函数。

这种形式下假设真实样本的标签为 +1 和 -1,分别表示正类和负类。有个已知的知识点是Sigmoid 函数具有如下性质:

1−g(s)=g(−s)
这个性质我们先放在这,待会有用。

好了,我们之前说了 y = +1 时,下列等式成立:

P(y=+1|x)=g(s)
如果 y = -1 时,并引入 Sigmoid 函数的性质,下列等式成立:

P(y=−1|x)=1−g(s)=g(−s)
重点来了,因为 y 取值为 +1 或 -1,可以把 y 值带入,将上面两个式子整合到一起:

P(y|x)=g(ys)
这个比较好理解,分别令 y = +1 和 y = -1 就能得到上面两个式子。

接下来,同样引入 log 函数,得到:

log P(y|x)=log g(ys)
要让概率最大,反过来,只要其负数最小即可。那么就可以定义相应的损失函数为:

L=−logg(ys)
还记得 Sigmoid 函数的表达式吧?将 g(ys) 带入:

L=−log11+e−ys=log (1+e−ys)
好咯,L 就是我要推导的交叉熵损失函数。如果是 N 个样本,其交叉熵损失函数为:

L=∑i=1Nlog (1+e−ys)
接下来,我们从图形化直观角度来看。当 y = +1 时:

L=log (1+e−s)
这时候,L 与上一层得分函数 s 的关系如下图所示:

这里写图片描述

横坐标是 s,纵坐标是 L。显然,s 越接近真实样本标签 1,损失函数 L 越小;s 越接近 -1,L 越大。

另一方面,当 y = -1 时:

L=log(1+es)
这时候,L 与上一层得分函数 s 的关系如下图所示:

这里写图片描述

同样,s 越接近真实样本标签 -1,损失函数 L 越小;s 越接近 +1,L 越大。

4. 总结

本文主要介绍了交叉熵损失函数的数学原理和推导过程,也从不同角度介绍了交叉熵损失函数的两种形式。第一种形式在实际应用中更加常见,例如神经网络等复杂模型;第二种多用于简单的逻辑回归模型。
--------------------- 
 

### 交叉熵损失函数与二值交叉熵损失函数的区别 #### 定义与区别 交叉熵损失函数(Cross-Entropy Loss)是一种常用的多分类任务中的损失函数,适用于多个类别的情况。其核心思想是比较模型预测的概率分布与真实概率分布之间的差异[^4]。 而二值交叉熵损失函数(Binary Cross-Entropy Loss, BCELoss),则专门针对二分类问题设计。它是交叉熵损失的一个特例,仅用于两个类别的区分情况[^3]。 两者的主要区别在于适用的任务类型以及输入数据的形式: 1. **交叉熵损失函数** 主要用于多分类任务,假设每个样本属于且只属于一个类别。它的公式如下: \[ L = -\frac{1}{N} \sum_{i=1}^{N} \sum_{j=1}^{C} y_{ij} \log(p_{ij}) \] 其中 \( N \) 是样本数量,\( C \) 是类别数,\( y_{ij} \) 表示第 \( i \) 个样本的真实标签向量的第 \( j \) 维,\( p_{ij} \) 则表示对应的预测概率。 2. **二值交叉熵损失函数** 针对的是二分类问题,通常将正负两类分别编码为0和1。其公式简化为: \[ L = -\frac{1}{N} \sum_{i=1}^{N} \left( y_i \log(p_i) + (1-y_i) \log(1-p_i) \right) \] 这里 \( y_i \in \{0, 1\} \),代表第 \( i \) 个样本的实际标签;\( p_i \) 是该样本被预测为正类的概率。 --- #### 应用场景对比 | 特性 | 交叉熵损失函数 | 二值交叉熵损失函数 | |-------------------|-------------------------------------|----------------------------------| | **主要用途** | 多分类任务 | 二分类任务 | | **输出形式** | 软max层后的概率分布 | sigmoid激活后的单个概率 | | **典型应用领域** | 图像分类、文本分类 | 垃圾邮件检测、疾病诊断 | 具体来说,在深度学习框架PyTorch和TensorFlow中实现这两种损失函数的方式也有所不同: ##### PyTorch 实现 ```python import torch.nn as nn # 交叉熵损失函数 criterion_ce = nn.CrossEntropyLoss() # 二值交叉熵损失函数 criterion_bce = nn.BCELoss() ``` ##### TensorFlow 实现 ```python from tensorflow.keras.losses import BinaryCrossentropy, CategoricalCrossentropy # 交叉熵损失函数 loss_fn_ce = CategoricalCrossentropy(from_logits=True) # 二值交叉熵损失函数 loss_fn_bce = BinaryCrossentropy(from_logits=False) ``` 需要注意的是,`nn.CrossEntropyLoss()` 和 `tf.keras.losses.CategoricalCrossentropy` 默认会自动计算softmax操作,因此无需手动调用softmax[^1]。而对于BCELoss,则需要先通过sigmoid激活函数得到概率值后再传入损失函数。 --- ### 总结 交叉熵损失函数适合于多分类任务,能够有效评估模型对于整个类别空间的学习效果;而二值交叉熵损失函数则是专为二分类任务定制的设计方案,具有更简单的结构和更高的效率。两者的本质都是基于信息论的思想来最小化预测分布与真实分布间的距离。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值