交叉熵损失

原创已于 2025-07-18 11:10:15 修改 · 537 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #概率论 #人工智能

于 2025-07-18 11:02:00 首次发布

文章目录

1.背景
2.交叉熵
3.推导
- 3.1 二分类问题
- 3.2 多分类问题
4.优势
5. 总结

1.背景

熵(Entropy): 熵是信息论中的一个基本概念，用于衡量一个随机变量的不确定性, 量化了随机变量的平均信息量。信息量的大小与事件发生的概率成反比：一个事件发生的概率越小，其携带的信息量越大；反之，一个事件发生的概率越大，其携带的信息量越小。
对于一个离散随机变量 X，其概率分布为 P(X)，熵 H(X) 定义为： $H(X)=-\sum_{i}^{}P(x_i)logP(x_i)$ .
其中， $x_i$ 是随机变量 $X$ 的可能取值， $P(x_i)$ 是 $x_i$ 出现的概率。
熵衡量了随机变量的不确定性。如果一个随机变量的取值非常不确定(例如，每个取值的概率都相等)，那么熵会很大；如果一个随机变量的取值非常确定(例如，某个取值的概率接近1，其他取值的概率接近0)，那么熵会很小。

每个取值概率都相等: $H(x)=-\sum_{i=1}^n(\frac{1}{n}log(\frac{1}{n}))=logn$ . 不确定性 $n$ 越大, $l o g (n)$ 越大
某个取值的概率接近1，其他取值的概率接近0(不妨只让 $x_k$ 接近1): $H(x)=-(P(x_k)logP(x_k)+\sum_{i\ne k}P(x_i)logP(x_i))=-(1log1 + \sum0log0)=0$ .( $x$ 趋近0的速度比 $l o gx$ 趋近无穷的速度快很多)

2.交叉熵

交叉熵是衡量两个概率分布之间的差异的工具。假设我们有两个概率分布 P 和 Q，它们定义在同一个随机变量 X 上。
交叉熵 H(P,Q) 定义为： $H(P,Q)=-\sum_{i}P(x_i)logQ(x_i)$ .
其中, $P(x_i)$ 是真实分布的概率。 $Q(x_i)$ 是模型预测的概率。
交叉熵衡量了用概率分布 Q 来表示真实分布 P 的平均信息量。如果 Q 和 P 完全一致，那么交叉熵等于 P 的熵；如果 Q 和 P 差异很大，那么交叉熵会比 P 的熵大得多。

3.推导

3.1 二分类问题

假设我们有一个二分类问题: 真实标签 y 只能取 0 或 1。模型预测的概率 $\hat{y}$ 表示样本属于类别 1 的概率。
真实分布 $P$ 可以表示为:
$p(y)=\begin{Bmatrix} 1 \space if \space y=1 \\ 0 \space if \space y=0 \end{Bmatrix}$
模型预测的 Q 可以表示为:
$Q(y)=\begin{Bmatrix} \hat{y} \space if \space y=1 \\ 1-\hat{y} \space if \space y=0 \end{Bmatrix}$
交叉熵损失 $L_{ce}$ 可以写为： $L_{ce}=-\sum_{y\in\left \{ 0,1 \right \} }P(y)logQ(y)$ .
展开: $L_{ce}=-[P(y=1)log(y=1)+P(y=0)logQ(y=0)]=-[ylog(\hat{y})+(1-y)log(1-\hat{y})]$
这就是二分类问题中的交叉熵损失函数。

3.2 多分类问题

对于多分类问题，假设：真实标签 y 是一个 one-hot 编码向量，表示样本属于某个类别的概率分布。模型预测的概率 $\hat y$ 是一个向量，表示样本属于每个类别的概率。
真实分布 P 和预测分布 Q 可以表示为： $P(y)=[y_1,y_2,\cdots,y_c]$ , $Q(y)=[\hat y_1, \hat y_2, \cdots, \hat y_c]$ .
其中, $C$ 是类别的总数， $y_i$ 是真实标签向量中的第 $i$ 个元素， $y_i$ 是预测概率向量中的第 $i$ 个元素。
交叉熵损失 $L_{ce}$ 可以写为: $L_{ce}=-\sum_{i=1}^{c}P(y_i)logQ(y_i)$ .
展开: $L_{ce}=-\sum_{i=1}^Cy_ilog(\hat{y_i})$ . 当 $C = 2$ , $y_i\in\{0,1\}$ 时, 就是二分类的交叉熵损失了.
这就是多分类问题中的交叉熵损失函数。