四.信息论基础知识

最新推荐文章于 2022-07-14 21:55:57 发布

原创最新推荐文章于 2022-07-14 21:55:57 发布 · 759 阅读

0 ·

CC 4.0 BY-SA版权

机器学习理论基础专栏收录该内容

39 篇文章

订阅专栏

1.自信息

对一个随机变量 $X$ 进行编码，概率分布为 $P (x)$ ，自信息 $I (x)$ 表示了 $X = x$ 时的信息量：
$I (x) = - l o g P (x)$

2.熵

熵衡量了随机变量的平均信息量，即自信息的数学期望：
$H(X)=E_{x}(I(X))=-\sum_{x\in X}P(x)\log P(x)$
由上述公式可知，信息越不确定，熵越大。即熵衡量了信息的混乱程度，信息越混乱，熵越大。
对于一个确定的信息，即发生概率为1或0时，熵为0；如果自变量的概率分布是均匀分布，熵最大。

3.联合熵和条件熵

离散随机变量 $X, Y$ 的联合概率分布为 $P (x, y)$ ，则其联合熵为：
$H(X,Y)=-\sum_{x\in X}\sum_{y\in Y} P(x,y)\log P(x,y)$
条件熵衡量了已知 $Y$ 的条件下， $X$ 的不确定程度：
$\begin{aligned} H(X|Y)&=-\sum_{x\in X}\sum_{y\in Y} P(x,y)\log P(x|y)\\ &=-\sum_{x\in X}\sum_{y\in Y} P(x,y)\log \frac{P(x,y)}{P(y)} \\ &=H(X,Y)-H(Y) \end{aligned}$

4.互信息

互信息衡量了已知一个变量的条件下，另一个变量的不确定性减少的程度：
$I(X,Y)=-\sum_{x\in X}\sum_{y\in Y}P(x,y)\log \frac{P(x,y)}{P(x)P(y)}$
如果 $X$ 和 $Y$ 相互独立，即 $X$ 不对 $Y$ 提供任何信息，反之亦然，则它们的互信息为零。因此，互信息也可以表示为：
$I (X, Y) = H (X) - H (X ∣ Y) = H (Y) - H (Y ∣ X)$

5.交叉熵

两个概率分布， $p (x)$ 为真实分布， $q (x)$ 为非真实分布，如果用 $q (x)$ 来表示 $p (x)$ 的平均编码长度，则为交叉熵：
$H(p,q)=E_{p}(-\log q)=-\sum_{x}p(x)\log q(x)$
在给定 $p$ 的情况下，如果 $q$ 和 $p$ 越接近，它们的交叉熵越小;反之，交叉熵越大。

6.相对熵(KL散度)

相对熵衡量了用非真实概率 $q (x)$ 来近似真实概率 $p (x)$ 时所造成的的信息损失量:
$D_{KL} (p||q)=H(p,q)-H(p)=-\sum_{x}p(x)\log \frac{p(x)}{q(x)}$
$K L$ 散度衡量了两个概率分布之间的距离，它是非负的，当p=q时， $D_{KL} (p||q)=0$ 。但是它是不对称的。