交叉熵（Cross-Entropy）

最新推荐文章于 2025-10-23 10:51:45 发布

原创最新推荐文章于 2025-10-23 10:51:45 发布 · 3k 阅读

7 ·

CC 4.0 BY-SA版权

深度学习专栏收录该内容

13 篇文章

订阅专栏

交叉熵是机器学习中的重要概念，涉及到信息量、熵、相对熵等理论。本文详细解释了信息量的概念，指出熵是随机变量不确定性的度量，当取值可能性相等时，不确定度最大。接着介绍了相对熵，即KL散度，作为衡量两个分布差异的度量。最后，区分了交叉熵与相对熵，并说明了交叉熵在最大似然估计中的作用。

交叉熵（Cross-Entropy）

交叉熵是一个在ML领域经常会被提到的名词。在这篇文章里将对这个概念进行详细的分析。

1.什么是信息量？

假设X值也非常的低。

2.什么是熵？

那么什么又是熵呢？还是通过上边的例子来说明，假设小明的考试结果是一个0-1分布XA
其熵为1，他的不确定性比前边两位同学要高很多，在成绩公布之前，很难准确猜测出他的考试结果。
可以看出，熵其实是信息量的期望值，它是一个随机变量的确定性的度量。熵越大，变量的取值越不确定，反之就越确定。

对于一个随机变量X而言，它的所有可能取值的信息量的期望（E[I(x)]
当X为0-1分布时，熵与概率p的关系如下图：
这里写图片描述
可以看出，当两种取值的可能性相等时，不确定度最大（此时没有任何先验知识），这个结论可以推广到多种取值的情况。在图中也可以看出，当p=0或1时，熵为0，即此时X完全确定。
熵的单位随着公式中log运算的底数而变化，当底数为2时，单位为“比特”(bit)，底数为e时，单位为“奈特”。