信息论基础

原创于 2019-03-06 19:27:45 发布 · 749 阅读

1 ·

CC 4.0 BY-SA版权

概率论和信息论专栏收录该内容

13 篇文章

订阅专栏

本文深入探讨信息量、信息熵、交叉熵及KL散度的概念，解释它们在信息理论中的作用，以及如何度量不确定性和信息的多少。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引言

所谓的信息，就是以前不知道现在知道的事实，如果某件事以前就知道，当别人再告诉你时，你会忽略，这件事对你的认知没有任何影响，这就不叫信息，反之，如果某件事以前你不知道，有人告诉你了，你现在知道了，那么对你而言，这件事就是信息。

让我们更进一步，看一件事带来的信息量的大小如何来度量。顾名思义，信息量就是度量信息大小的一种量，让我们看一个形象的例子。有人告诉你巴西赢了世界杯，那么这件事对大多数人而言，并不值得关注，它并没有带来多少惊喜，如果是中国赢得了世界杯，那么这件事可能会刷新很多人的世界观，这件事带来的信息量就特别大，我们常说的黑天鹅事件就是概率极低但确实发生了的事件。定性的说，小概率事件带来的信息量大，大概率事件带来的信息量小。下面我们看下以上这句话如何定量的描述。

用概率来度量信息是合理的，这并不是空穴来风，半个多世纪之前，香农提出的信息论便是以概率论为基础。执果索因，我们先来看看香农为什么用事件发生概率的对数来度量信息量。

用概率描述信息量的重要性质：

事件发生的概率越低，信息量越大
事件发生的概率越高，信息量越少
多个事件同时发生的概率是多个事件概率相乘，总信息量是多个事件信息量相加

通过第三点，我们可以知道：
$x_1和x_2同时发生的概率：P(x_1, x_2) = P(x_1)\cdot P(x_2)$ $x_1和x_2总信息量：log[P(x_1)P(x_2)] = log[P(x_1)] + log[P(x_2)]$
通过前两点，我们知道信息量，信息量和概率之间一定是减函数的关系。
由此确定，信息量描述为：
$I (x) = - l o g P (x)$
称 $I (x)$ 为自信息，如果以 2 为底，单位是bit。当使用以 e 为底的对数时，单位将是 nat。对于基底为 10 的对数，单位是 hart。

信息熵

对于离散系统
$-\sum_{i}p_ilog (p_{i})$
对于连续的系统
$E_{x\sim P}[I(x)] = - E_{x\sim P}[log P(x)]$
信息熵反应了信息量的多少，信息熵越大表明信息越多，随机事件的信息量与随机变量的确定性有关，不确定性越大包含的信息量就越大，所有可能的事件等概率时不确定性最高。

交叉熵

令不完美的编码用 $Q$ 表示，平均编码长度为
$-E_{P(x)}Q(x) = -\int P(x)logQ(x)dx$

交叉熵用来衡量编码方案不一定完美时，平均编码的长度。
交叉熵常用作损失函数。原因是真实的样本分布是 $P$ , 而模型概率分布是 $Q$ , 只有模型分布于真实样本分布相等时，交叉熵最小。

KL散度

$D_{KL}(P||Q) = E_{x\sim P}[log \frac{P(x)}{Q(x)}] = \int P(x)logP(x)dx -\int P(x)logQ(x)dx$
KL散度用来衡量两个概率分布之间的相似程度，其重要性质是非负性，而且，当且仅当两个概率分布处处相等时，KL散度取到零。KL散度与一般的距离不同，它一般不具有对称性。
$H(P, Q) = D_{KL}(P||Q) + H(P)$ 上述关系很容易推导，此处从略，可以看出样本的真实分布 $P$ 保持不变，最优化交叉熵等价于最优化KL散度。KL散度还可用于异常检测。