【AIGC】信息量、熵、交叉熵、KL散度、二值交叉熵(Binary Cross-Entropy，BCE)

原创

已于 2025-07-21 11:52:49 修改 · 1.9k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#AIGC

于 2023-11-23 15:41:57 首次发布

本文围绕二值交叉熵和二值交叉熵损失函数展开，先介绍信息量、熵、交叉熵、KL散度等理论基础，推导各概念公式及性质，强调事件空间概念。后阐述二值交叉熵是交叉熵特殊情况，推导其与损失函数关系，说明损失函数设计目的是拟合真实概率。

本文详细的推导了二值交叉熵(BCE)和二值交叉熵损失函数(BCE Loss)之间的关系。

一、理论基础

$A:=f(\cdot)$ 表示 $A$ 定义为 $f(\cdot)$ ，这是人们为了某些目的而将 $A$ 定义成 $f(\cdot)$ 的，有意义的定义往往能揭示一些规律。

1. 信息量

对于事件 $x$ ，假设它的信息量表示为 $I (x)$ ，它发生的概率表示为 $p (x)$ 。

基于我们的常识可以知道：

一个事件 $x_i$ 发生的概率越小，它包含的信息量 $I(x_i)$ 应该越大 $=> I$ 应该和 $p$ 成反比 $=>$ 即 $I$ 和 $\frac{1}{p}$ 成正比
两个事件 $x_i, x_j$ 的信息量 $I(x_i)+I(x_j)$ 相加，应该和这两个事件同时发生有关（注意：两个事件同时发生的概率等于两个事件的概率之积 $p(x_i)p(x_j)$ ） $=> I$ 应该能把加法转换为乘法 $=>$ 可用 $l o g$ 实现

基于上面两个性质，可以有 $I(x):=log\frac{1}{p(x)}$ ，log的底取任何>1的值其实都没关系，但为了让它更有意义，通常取 $2$ 为底，因为这样，就能使得抛硬币正面朝上这样只有 $\frac{1}{2}$ 概率的事件的信息量刚好为1，并且可以赋予其"比特"的单位（注意，单位也是定义的，人们会把一些有意义的事情给上单位）。所以说，抛硬币正面朝上的信息量为1比特。

所以，最终定义信息量为：
$I(x):=log_2\frac{1}{p(x)}=-log_2p(x)$

2. 熵（也叫香农熵）

熵这个概念是针对一个事件集合 $X$ 而定义的（即有一系列事件 $\in X$ ），

熵定义为这些事件携带信息量的平均值（也叫期望）。所以有：
$H(p(x)):=\sum_{x\in X}p(x)I(x)=-\sum_{x\in X}p(x)log_2p(x)$
或简写版：
$H(p):=\sum p_xI_x=-\sum p_xlog_2p_x$
这样，熵越大，表示这个系统包含的信息越多，系统越不稳定。