本文详细的推导了二值交叉熵(BCE)和二值交叉熵损失函数(BCE Loss)之间的关系。
一、 理论基础
A : = f ( ⋅ ) A:=f(\cdot) A:=f(⋅) 表示 A A A定义为 f ( ⋅ ) f(\cdot) f(⋅),这是人们为了某些目的而将 A A A定义成 f ( ⋅ ) f(\cdot) f(⋅)的,有意义的定义往往能揭示一些规律。
1. 信息量
对于事件 x x x,假设它的信息量表示为 I ( x ) I(x) I(x),它发生的概率表示为 p ( x ) p(x) p(x)。
基于我们的常识可以知道:
- 一个事件 x i x_i xi发生的概率越小,它包含的信息量 I ( x i ) I(x_i) I(xi)应该越大 = > I =>I =>I应该和 p p p成反比 = > => =>即 I I I和 1 p \frac{1}{p} p1成正比
- 两个事件 x i , x j x_i, x_j xi,xj的信息量 I ( x i ) + I ( x j ) I(x_i)+I(x_j) I(xi)+I(xj)相加,应该和这两个事件同时发生有关(注意:两个事件同时发生的概率等于两个事件的概率之积 p ( x i ) p ( x j ) p(x_i)p(x_j) p(xi)p(xj)) = > I =>I =>I应该能把加法转换为乘法 = > => =>可用 l o g log log实现
基于上面两个性质,可以有 I ( x ) : = l o g 1 p ( x ) I(x):=log\frac{1}{p(x)} I(x):=logp(x)1 ,log的底取任何>1的值其实都没关系,但为了让它更有意义,通常取 2 2 2为底,因为这样,就能使得抛硬币正面朝上这样只有 1 2 \frac{1}{2} 21 概率的事件的信息量刚好为1,并且可以赋予其"比特"的单位(注意,单位也是定义的,人们会把一些有意义的事情给上单位)。所以说,抛硬币正面朝上的信息量为1比特。
所以,最终定义信息量为:
I ( x ) : = l o g 2 1 p ( x ) = − l o g 2 p ( x ) I(x):=log_2\frac{1}{p(x)}=-log_2p(x) I(x):=log2p(x)1=−log2p(x)
2. 熵(也叫香农熵)
熵这个概念是针对一个事件集合 X X X而定义的(即有一系列事件 x ∈ X x \in X x∈X),
熵定义为这些事件携带信息量的平均值(也叫期望)。所以有:
H ( p ( x ) ) : = ∑ x ∈ X p ( x ) I ( x ) = − ∑ x ∈ X p ( x ) l o g 2 p ( x ) H(p(x)):=\sum_{x\in X}p(x)I(x)=-\sum_{x\in X}p(x)log_2p(x) H(p(x)):=x∈X∑p(x)I(x)=−x∈X∑p(x)log2p(x)
或简写版:
H ( p ) : = ∑ p x I x = − ∑ p x l o g 2 p x H(p):=\sum p_xI_x=-\sum p_xlog_2p_x H(p):=∑pxIx=−∑pxlog2px
这样,熵越大,表示这个系统包含的信息越多,系统越不稳定。
熵越小,表示这个系统包含的信息越少,系统越稳定。

如上图所示,中国和法国比赛悬念比较小,所以信息量少,结果比较稳定。(虽然中国赢了有更大的信息量,但发生的概率太小,整体基本上是法国赢)
而德国对荷兰的比赛则55开,比较不稳定,谁最终夺冠是个信息量很大的事。
所以德国VS荷兰这个系统的熵>法国VS中国的熵
3. 交叉熵
对于事件 x x x,
假设它发生的真实概率(ground truth probability)表示为 p ( x ) p(x) p(x)
假设它的观测概率为 q ( x ) q(x) q(x)(即通过多次试验得到的概率或者通过算法预测出来的概率)
则交叉熵定义为:
H ( p ( x ) , q ( x ) ) : = ∑ x ∈ X p ( x ) I q ( x ) = − ∑ x ∈ X p ( x ) l o g 2 q ( x ) H(p(x),q(x)):=\sum_{x\in X}p(x)I^q(x)=-\sum_{x\in X}p(x)log_2q(x) H(p(x),q(x)):=x∈X∑p(x)Iq(x)=−x∈X∑p(x)log2q(x)
或简写版:
H ( p , q ) : = ∑ p x I x q = − ∑ p x l o g 2 q x H(p,q):=\sum p_xI^q_x=-\sum p_xlog_2q_x H(p,q):=∑px

本文围绕二值交叉熵和二值交叉熵损失函数展开,先介绍信息量、熵、交叉熵、KL散度等理论基础,推导各概念公式及性质,强调事件空间概念。后阐述二值交叉熵是交叉熵特殊情况,推导其与损失函数关系,说明损失函数设计目的是拟合真实概率。
最低0.47元/天 解锁文章
2162

被折叠的 条评论
为什么被折叠?



