深度学习：交叉熵损失（Cross Entropy Loss）

最新推荐文章于 2025-06-13 14:39:48 发布

YRr YRr

最新推荐文章于 2025-06-13 14:39:48 发布

阅读量1.7k

点赞数 20

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_73640344/article/details/143342707

深度学习专栏收录该内容

99 篇文章

订阅专栏

交叉熵损失（Cross Entropy Loss）

定义和数学表达

交叉熵损失是一种常用于评估概率分类模型性能的损失函数。它衡量的是模型预测的概率分布与真实分布之间的差异。交叉熵损失特别适用于分类任务中，尤其是多类分类问题。

数学上，交叉熵可以定义为：

[ $C(\mathbf{y}, \mathbf{\hat{y}}) = -\sum_{i=1}^{N} y_i \log(\hat{y}_i) $]

其中：

( $y\mathbf{y}$ ) 是真实的标签分布，通常表示为one-hot编码向量。
( $\mathbf{\hat{y}} $) 是模型预测的概率分布，由模型的输出层经过softmax函数转换得到。
( N ) 是类别的总数。
( $y_i$ ) 是实际标签在第 ( $i$ ) 类的值（0或1），( $\hat{y}_i $KaTeX parse error: Can't use function '\)' in math mode at position 1: \̲)̲ 是预测为第 \($ i$ ) 类的概率。

特性

交叉熵损失的核心特性包括：

敏感性：这个函数对正确分类的概率非常敏感。如果实际类别的预测概率低（即接近于0），那么损失将会非常高。
非对称性：这种损失在处理极端概率（接近0或1）时表现出明显的非对称性。特别是当预测概率趋近于0时，损失会迅速增加。

交叉熵与信息论

在信息论中，交叉熵衡量的是使用错误的概率分布（模型预测）来编码事件（实际发生的类别）所需的额外信息量。理想情况下，我们希望模型的预测分布尽可能接近真实分布，这样交叉熵就最小，表示预测非常准确。

实例解释

考虑一个简单的三类分类问题，比如预测一张图片是猫、狗还是鸟。假设对于一个实例，真实标签是狗，模型的预测输出（经过softmax）为：
[$ \hat{y} = [0.1, 0.7, 0.2]$ ]
对应的真实标签的one-hot编码为：
[$ y = [0, 1, 0]$ ]

交叉熵损失计算为：
[ $C(y, \hat{y}) = -(0 \times \log(0.1) + 1 \times \log(0.7) + 0 \times \log(0.2)) = -\log(0.7) $]
[ $C(y,y^)≈0.3567C(y, \hat{y}) \approx 0.3567$ ]

这表明模型对真实类别（狗）的预测概率为0.7时的损失为0.3567。如果模型对狗的预测概率更高，比如0.9，则损失会更低，显示为：
[ $C(y,y^)=−log⁡(0.9)≈0.1054C(y, \hat{y}) = -\log(0.9) \approx 0.1054$ ]

结论

交叉熵损失函数是监督学习中非常重要的工具，特别是在处理分类问题时。它不仅提供了一种衡量模型性能的方法，还通过梯度下降等优化算法指导了模型的学习过程。优化交叉熵损失可以帮助模型更好地学习区分不同类别，提高分类的准确率。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

YRr YRr 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。