理解交叉熵损失（Cross-Entropy）

理解交叉熵与相对熵

最新推荐文章于 2025-10-23 10:51:45 发布

原创最新推荐文章于 2025-10-23 10:51:45 发布 · 8.6k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#交叉熵 #机器学习 #代价函数

machine learning 同时被 2 个专栏收录

8 篇文章

订阅专栏

deep learning

2 篇文章

订阅专栏

本文探讨了字符集编码的概念及其在信息理论中的应用，并详细解释了相对熵和交叉熵的原理。通过对比不同编码方式，阐述了如何利用交叉熵评估预测概率分布与真实分布之间的差异，以及其在机器学习中的作用。

理解交叉熵损失

字符集编码

字符集编码的意义在于将数据集进行有效压缩。
假设在一个文档中只出现了a、b、c、d、e 5种字符，其占比如下表：

字符	a	b	c	d	e
占比	0.1	0.1	0.2	0.2	0.4

最容易想到的编码方式，5个字符，需要3个bit位，故：

字符	a	b	c	d	e	单个字符编码长度期望值
编码	000	001	010	011	100	3

但是这并不是最优的编码方式，例如：

字符	a	b	c	d	e	单个字符编码长度期望值
编码	1111	1110	110	10	0	2.2

这种编码方式的特点就在于，占比高的字符编码长度尽可能短，同时要满足不能出现歧义的限制条件。
那么给定一个数据集之后，究竟每个字符编码是什么，编码应该多长呢？
给定字符集 $X={\{x\}}$ , 满足 $p(x)$ 的概率分布，设字符x的最优编码长度为 $l(x)$ ，设 $H(X)$ 为字符编码长度期望，则根据香农信息理论，最优编码情况下有以下结论：

l (x) = l o g 1 p ( x )

$l(x)=log\frac{1}{p(x)}$

H (X) = \sum x p (x) l o g 1 p ( x )

$H(X)=\sum_{x}p(x)log\frac{1}{p(x)}$
字符集编码先介绍这么多，一会儿会用到。

相对熵

相对熵是一种用来评价两种概率分布差异程度的方法。
给定字符集 $X={\{x\}}$ ，你通过某种方法预测其概率分布为 $q(x)$ ，但是其真实的概率分布为 $p(x)$ ，那么怎么评价二者的差异呢？如何评价 $q(x)$ 偏离真实分布 $p(x)$ 的程度呢？
可以通过字符集编码长度与最优编码方案下的编码长度的差来度量。
最优编码方案下的字符编码长度为：

l (x) = l o g 1 p ( x )

$l(x)=log\frac{1}{p(x)}$
根据预测概率分布

q(x) $q(x)$ 进行编码，字符编码长度为：

l (x) = l o g 1 q ( x )

$l(x)=log\frac{1}{q(x)}$
最优编码方案下字符编码长度期望为：

H (X) = \sum x p (x) l o g 1 p ( x )

$H(X)=\sum_{x}p(x)log\frac{1}{p(x)}$
根据预测概率分布

q(x) $q(x)$ 进行编码，实际获得的编码长度期望为：

H' (X) = \sum x p (x) l o g 1 q ( x )

$H'(X)=\sum_{x}p(x)log\frac{1}{q(x)}$
很显然：

H' (X) > H (X)

$H'(X)>H(X)$
因为最优编码是编码长度期望最短的；
定义：

D K L (P | | Q) = H' (X) - H (X)

$D_{KL}(P||Q)=H'(X)-H(X)$
可得：

D K L (P | | Q) = \sum x p (x) l o g (p (x)) - \sum x p (x) l o g (q (x))

$D_{KL}(P||Q)=\sum_{x}p(x)log(p(x))-\sum_{x}p(x)log(q(x))$

DKL(P||Q) $D_{KL}(P||Q)$ 就是相对熵，从公式可以看出，相对熵是不对称的。

交叉熵

交叉熵是从相对熵而来的。
在机器学习领域，多分类问题很常见，在很多深度学习模型当中，网络的输出层就是一个 $softmax$ 层，对于 $N$ 分类问题，输出是一个 $N$ 维的向量，向量元素介于 $[0,1]$ 之间，且元素累加和为1（这是 $softmax$ 性质所决定的）；
将 $softmax$ 层输出向量视为预测类别的概率分布 $q(x)$ ，用真实类别标签构造真实的类别概率分布 $p(x)$ （例如，令真实类别概率为1，其余类别概率为0），那么相对熵 $D_{KL}(P||Q)$ 就可以评价预测结果 $q(x)$ 的好坏了，我们只需要最小化它就好了。
既然可以用相对熵作为代价函数，那为什么还要引出交叉熵？
因为在 $D_{KL}(P||Q)$ 的公式中：