交叉熵(Cross-Entropy)详解
1. 引言
在机器学习和深度学习中,交叉熵(Cross-Entropy)是一种常见的损失函数,广泛用于分类任务,特别是二分类和多分类问题。交叉熵的核心思想是衡量两个概率分布之间的差异,并通过最小化这个差异来优化模型,使预测结果尽可能接近真实分布。
在本篇文章中,我们将详细探讨:
- 交叉熵的定义与公式
- 交叉熵的数学推导
- 交叉熵的作用与直观理解
- 交叉熵在机器学习中的应用
- 交叉熵与其他损失函数的对比
2. 交叉熵的定义
2.1 交叉熵公式
交叉熵的数学定义如下:
其中:
- D 表示交叉熵损失(Cross-Entropy Loss)
- K 是类别的总数
表示样本在类别 k 上的真实概率
是对数操作(一般以自然对数 ln 计算)
2.2 交叉熵的作用
交叉熵用于衡量两个概率分布之间的相似性,当真实分布和预测分布一致时,交叉熵最小(接近 0);当两个分布相差越大时,交叉熵值越大。
例如:
- 如果模型的预测概率完全匹配真实标签(如 100% 置信度地预测正确),交叉熵损失趋近于 0。