信息论的基本想法是一个不太可能发生的事情发生了,具有更多的信息量。
自信息(self-information)定义为:
以log表示自然对数,其底数为e,单位是奈特(nats)。底数为2的对数,单位是比特(bit)或者香农(shannons)。
自信息只处理单个的输出。可以使用香农熵(Shannon entropy)来对整个概率分布中的不确定性总量进行量化:
香农熵也计作H(P)。换言之,一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。
当x是连续的,香农熵被称为微分熵(differential entropy)。
如果对于同一个随机变量x有两个单独的概率分布P(x)和Q(x),可以使用KL散度(Kullback-Leibler(KL) divergence)来衡量这两个分布的差异:
在离散型变量的情况下,KL散度衡量的是,当我们使用一种被设计成能够使得概率分布Q产生的消息的长度最小的编码,发送包含由概率分布P产生的符号的消息时,所需要的额外信息量。
KL散度是非负的。KL散度为0,当且仅当P和Q在离散型变量的情况下是相同的分布,或者在连续型变量的情况下是"几乎处处"相同的。
一个和KL散度密切联系的量是交叉熵(cross-entropy),即
它和KL散度很像,但是缺少左边一项:
针对Q最小化交叉熵等价于最小化KL散度,因为Q并不参与被省略的那一项。