信息论基础-第二章信息论的基本概念_信息论中的h0,h1,h2都分别怎么定义-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_45311983/article/details/109280922

离散熵

熵的定义： $H(X)=-\sum^N_1 p_n log p_n$
熵可以作为信息的量度：通过随机试验，我们获得了信息，且该信息的数量恰好等于随机变量的熵。
熵函数的性质：
1、香农熵是概率矢量的非负上凸函数
2、对于离散随机变量，当其可能取值等概分布时，其熵达到最大值，即 $m a x H (X) = l o g N$
熵的单位：以2为底bit，以e为底nat，以10为底Hartley

联合熵与条件熵

联合熵：
$H(XY)=-\sum_{k=1}^K \sum_{j=1}^J p(a_k,b_j)\log p(a_k,b_j)$
条件熵：
$H(Y|X)=-\sum_{k=1}^{K}\sum_{j=1}^J p(a_k,b_j) \log p(b_j|a_k)$
联合熵和条件熵的关系：
$H (X Y) = H (Y) + H (X ∣ Y) = H (X) + H (Y ∣ X)$
$H(XY)\leqslant H(X)+H(Y)$
$H(X|Y)\leqslant H(X)$
$H(Y|X)\leqslant H(Y)$
条件熵在一般情形下总是小于无条件熵。当随机变量X和Y独立时，条件熵和无条件熵相等。

离散互信息

互信息的定义

已知Y的取值后所提供的有关X的信息
$I (X; Y) = H (X) - H (X ∣ Y)$
$I (Y; X) = H (Y) - H (Y ∣ X)$
$I(X;Y)=\sum_{k=1}^K\sum_{j=1}^J p(a_k,b_j) log\frac{p(a_k,b_j)}{p(a_k)p(b_j)}$
$I (X; Y) = H (X) + H (Y) - H (X Y)$
一般情况下，互信息的值满足关系式： $0\leqslant I(X;Y)\leqslant min(H(X),H(Y))$
互信息是对X和Y之间统计依存程度的信息量度。

多个随机变量下的互信息

1、两组多元随机矢量之间的互信息
$I (X; Y Z) = H (X) - H (X ∣ Y Z) = H (Y Z) - H (Y Z ∣ X) = H (X) + H (Y Z) - H (X Y Z)$
2、条件互信息
$I(X;Y|Z)=\sum^K_{k=1}\sum^J_{j=1}\sum^L_{l=1}p(a_k,b_j,c_l)\log\frac{p(a_k,b_j|c_l)}{p(a_k|c_l)p(b_j|c_l)}$
$I (X Y; U V W) = I (X Y; W) + I (X Y; V ∣ W) + I (X Y; U ∣ V W)$
3、随机矢量中各随机变量相互之间的互信息
I(X;Y;Z)

互信息函数的性质

$I(X;Y)=\sum_{k=1}^K\sum_{j=1}^J p(a_k)q(b_j|a_k) log\frac{q(b_j|a_k)}{\sum^K_{i=1} p(a_i)q(b_j|a_i)}$
性质：互信息 $I (p, Q)$ 是p的上凸函数，是Q的下凸函数

连续随机变量下的熵与互信息

连续随机变量下的微分熵

$h(X)=-\int_{-\infty}^{\infty} p(x)\log p(x) dx$
联合微分熵 $h(XY)=-\int \int p(x,y) log p(x,y) dxdy$
条件微分熵 $h(X|Y)=-\int \int p(x,y) log p(x|y)dxdy$
多个随机变量下离散熵之间的一些关系式在连续随机变量下仍然成立，如： $h (X Y) = h (X) + h (Y ∣ X) = h (Y) + h (Y ∣ X)$
$h(X|Y)\leqslant h(X)$ ， $h(XY)\leqslant h(X)+h(Y)$

随机变量函数的微分熵

$h(UV)=h(XY)-\int \int p(x,y) \log|J| dxdy$
$J=J(\frac{x,y}{u,v})$

连续随机变量下的互信息

$I(X,Y)=\int \int p(x,y) \log \frac{p(x,y)}{p(x)p(y)} dxdy$
互信息表示随机变量之间相互提供的信息量。

鉴别信息

1、离散随机变量的情形
设随机变量X的可能取值为 ${a_1,a_2,...,a_k}$ ，且X的概率分布情况与假设H1和H2有关。
鉴别信息（又称方向散度）为 $I(p_2,p_1;X)=\sum^K_{k=1}p_2(a_k)\log\frac{p_2(a_k)}{p_1(a_k)}$
2、连续随机变量
$I(p_2,p_1;X)=\int p_2(x)\log\frac{p_2(x)}{p_1(x)}dx$
3、多个随机变量
与单个情况类似，把一重求和变为二重求和即可。