交叉熵损失

概述

        在分类的任务中,往往会使用交叉熵损失函数。对于二分类,使用的是binary_crossentropy,在多分类的任务中,使用的时sparse_categorical_crossentropy和categorical_crossentropy,本文将详细的介绍这三种损失函数

binary_crossentropy

数学公式

        在二分类的任务中,标签值为[0, 1]。从公式中我们可以看出当y_i的标签值为0时,只有蓝色的部分起作用,y_i的标签值为1时,只有红色的部分起作用。binary_crossentropy通常结合sigmoid激活函数使用,作为二分类的损失函数。同时也可以用于多分类的损失函数,其原理就是将多分类拆成多个二分类,每个类别都相互独立预测,categorical_crossentropy则限制各个类别的概率值相加和为1

代码示例

        在此将使用tensorflow的api和公式计算两种方式来说明

  • tensorflow api
from tensorflow.keras.losses import binary_crossentropy
y_true = [0, 1]
y_predict = [0.2, 0.9]
print(binary_crossentropy(y_true, y_predict))
# -----------------------------------------------------
输出:tf.Tensor(0.1642519, shape=(), dtype=float32)
  • 公式计算
loss = -1/2. * (
    0 * tf.math.log(0.2) + (1 - 0) * tf.math.log(1 - 0.2) +
    1 * tf.math.log(0.9) + (1 - 1) * tf.math.log(1 - 0.9)
)
print(loss)
# ------------------------------------------------------------
输出:tf.Tensor(0.16425204, shape=(), dtype=float32)

总结:从结果可以看出都是一样的(有些许精度问题)

categorical_crossentropy

数学公式

loss=-\frac{1}{m}\sum_{i=1}^{m}\sum_{j=1}^{k}y_{ij}\log\hat{y_{ij}}

        公式中的m为样本数,k为类别数,对于多分类问题,有多少个类别,模型的输出就有多少个各个类别之间具有排他性。通常与softmax激活函数一起使用。使用categorical_crossentropy需要对y_true进行one_hot编码

代码示例

        在此将使用tensorflow的api和公式计算两种方式来说明

  • tensorflow api
from tensorflow.keras.losses import categorical_crossentropy
y_true = [[0, 1, 0], [1, 0, 0]]
y_predict = [[0.1, 0.6, 0.3],[0.8, 0.1, 0.1]]
loss = tf.reduce_mean(categorical_crossentropy(y_true, y_predict))
print(loss)
# -------------------------------------------------------
输出:tf.Tensor(0.36698455, shape=(), dtype=float32)
  • 公式计算
loss = - 1/2. * (
    (0 * tf.math.log(0.1) + 1 * tf.math.log(0.6) + 0 * tf.math.log(0.3)) +
    (1 * tf.math.log(0.8) + 0 * tf.math.log(0.1) + 0 * tf.math.log(0.1))
)
print(loss)
# -------------------------------------------------------
输出:tf.Tensor(0.36698455, shape=(), dtype=float32)

总结:tensorflow的categorical_crossentropy api只会计算每个样本的交叉熵损失,所以需要而且加起来再求平均。如上所述,两种计算方式所求结果一致

sparse_categorical_crossentropy

        公式和categorical_crossentropy是一样的,sparse_categorical_crossentropy和categorical_crossentropy的区别就是前者不需要转化为one_hot编码,使用整数编码(0,1,2,...,k),后者需要转化为one_hot编码,这个在前面也有所介绍。

代码示例

        在此仅用tensorflow api来说明

from tensorflow.keras.losses import sparse_categorical_crossentropy
y_true = [1, 0]
y_predict = [[0.1, 0.6, 0.3], [0.8, 0.1, 0.1]]
loss = tf.reduce_mean(sparse_categorical_crossentropy(y_true, y_predict))
print(loss)
# ----------------------------------------------------------
输出:tf.Tensor(0.3669846, shape=(), dtype=float32)

总结:sparse_categorical_crossentropy也只是计算每个样本的交叉熵,所以需要而且加起来再求平均

最后

  • binary_crossentropy通常与sigmoid激活函数一起使用,可用于二分类,也可用于多分类,在多分类时,每个类别的预测时相互独立的
  • categorical_crossentropy和sparse_categorical_crossentropy都只会计算每个样本的交叉熵,最后需要将所有样本的交叉熵相加求平均。不同的是前者需要将y_true转化为one_hot编码,后者不需要,可以使用整数编码
### 常见的分类任务损失函数及其应用场景 #### 1. **交叉熵损失 (Cross-Entropy Loss)** 交叉熵损失是一种广泛应用于多类和二分类问题中的损失函数。它通过衡量预测概率分布与真实标签之间的差异来评估模型性能。对于二分类问题,通常采用的是二元交叉熵损失;而对于多分类问题,则使用softmax结合交叉熵的形式。 其定义如下: 对于二分类问题: \[ L = - \frac{1}{N} \sum_{i=1}^{N} [y_i \log(p_i) + (1-y_i)\log(1-p_i)] \] 其中 \( y_i \) 是样本的真实标签(0 或 1),\( p_i \) 是模型对该样本属于正类的概率估计[^1]。 对于多分类问题: \[ L = - \frac{1}{N} \sum_{i=1}^{N} \sum_{j=1}^{C} y_{ij} \log(p_{ij}) \] 这里 \( C \) 表示类别总数,\( y_{ij} \) 和 \( p_{ij} \) 分别表示第 \( i \) 个样本属于第 \( j \) 类别的真实值和预测概率。 #### 2. **加权交叉熵损失 (Weighted Cross-Entropy Loss)** 当数据集中存在类别不均衡的情况时,普通的交叉熵可能会偏向于多数类。此时可以引入权重参数调整不同类别的贡献程度。具体形式为: \[ L_w = - \frac{1}{N} \sum_{i=1}^{N} w(y_i)[y_i \log(p_i) + (1-y_i)\log(1-p_i)] \] 这里的 \( w(y_i) \) 是针对每个类别的权重因子,可以根据实际需求设定,比如按照各类样本数量的比例反向设置权重。 #### 3. **Focal Loss** Focal loss 是一种改进版的交叉熵损失,在处理极度不平衡的数据集上表现优异。它的核心思想是对容易分错的样例赋予更高的权重,从而让网络更加关注难分样本的学习过程。该方法特别适合目标检测等场景下的分类子任务。 表达式为: \[ FL(p_t) = -(1-p_t)^{\gamma}\log(p_t) \] 其中 \( p_t \) 是指对应于真实类别的预测概率,而超参 γ 控制聚焦的程度[\^2]。 #### 4. **Hinge Loss** 主要用于支持向量机(SVM),但在某些神经网络架构下也可以作为替代方案之一。尤其适用于线性可分离情况或者最大间隔原则适用场合。 公式表述如下: \[ L = \max(0, 1-t \cdot f(x)) \] 此处 t 属{-1,+1},f(x)=wx+b. --- ```python import torch.nn as nn # 定义交叉熵损失 criterion_cross_entropy = nn.CrossEntropyLoss() # 加权版本 weights = torch.tensor([0.7, 0.3]) # 自定义权重 criterion_weighted_ce = nn.CrossEntropyLoss(weight=weights) # Focal Loss实现片段 class FocalLoss(nn.Module): def __init__(self, gamma=2, alpha=None, size_average=True): super(FocalLoss, self).__init__() ... ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值