熵、信息熵、交叉熵详解

0 前言

信息论( Information Theory) 是数学、 物理、 统计、 计算机科学等多个学科的交叉领域。 信息论是由克劳德· 香农最早提出的, 主要研究信息的量化、存储和通信等方法.这里,“信息” 是指一组消息的集合。 假设在一个噪声通道上发送消息, 我们需要考虑如何对每一个信息进行编码、 传输以及解码, 使得接收者可以尽可能准确地重构出消息。

在机器学习相关领域, 信息论也有着大量的应用,比如特征抽取、 统计推断、自然语言处理等。

1 熵

熵( Entropy) 最早是物理学的概念, 用于表示一个热力学系统的无序程度。在信息论中, 熵用来衡量一个随机事件的不确定性。

1.1 自信息和熵

==自信息( Self Information) ==表示一个随机事件所包含的信息量。 一个随机
事件发生的概率越高, 其自信息越低. 如果一个事件必然发生, 其自信息为0。

对于一个随机变量 X X X( 取值集合为 χ \chi χ, 概率分布为 p ( x ) p(x) p(x), x ∈ χ x\in\chi xχ), 当 X = x X=x X=x时的自信息 I ( x ) I(x) I(x)定义为:

I ( x ) = − log ⁡ p ( x ) I(x)=-\log p(x) I(x)=logp(x)

在自信息的定义中, 对数的底可以使用 2、 自然常数 𝑒 或是 10。当底为 2 时,自信息的单位为bit;当底为𝑒时, 自信息的单位为nat。

对于分布为 p ( x ) p(x) p(x)的随机变量SXS, 其自信息的数学期望 E X [ I ( X ) ] E_X[I(X)] EX[I(X)], 也就是X的熵,记作 H ( X ) H(X) H(X):

H ( x ) = E x [ I ( X ) ] = E X [ − log ⁡ p ( x ) ] = − ∑ x ∈ χ p ( x ) log ⁡ p ( x ) \begin{aligned} H(x)&=E_x[I(X)] \\ &=E_X[-\log p(x)]\\ &=-\sum_{x\in\chi}p(x)\log p(x) \end{aligned} H(x)=Ex[I(X)]=EX[logp(x)]=xχp(x)logp(x)

其中,当 p ( x i ) = 0 p(x_i)=0 p(xi)=0时,定义 0 log ⁡ 0 = 0 0\log 0 = 0 0log0=0,因为 lim ⁡ p → 0 + p log ⁡ p = 0 \lim_{p\rightarrow0^{+}}p\log p = 0 limp0+plogp=0

熵越高, 则随机变量的信息越多; 熵越低, 则随机变量的信息越少。 如果变量
X X X 当且仅当在 x x x时, p ( X = x ) = 1 p(X=x)=1 p(X=x)=1, 则熵为 0. 也就是说, 对于一个确定的信息, 其熵为0, 信息量也为0。 如果其概率分布为一个均匀分布, 则熵最大。

  • 假设随机变量
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值