首先记住几个要点:
1.读完本文,一定要理解对事件和随机变量的区别。(所有要区别的地方全部已加粗表示).
2.全文,熵可替换为信源,事件可替换为符号。
1.信息量
要描述随机变量X中事件x发生所带来的信息量,从生活常用语中,我们都知道,概率越小的事情发生了,所带来的信息量越大(太阳从西边升起来了!难道有什么大事情要发生?信息量很大;“我明天要吃饭”,“谁都知道你明天要吃饭,一点信息量都没有”)。
信息量是对事件的不确定性的度量,单位bit
定义:在随机变量X中,事件x的(自)信息量I(X=x)I(X=x)I(X=x)简写为
I(x)=−log2p(x),单位bitI(x)=-\log_{2}p(x),单位bit
I(x)=−log2p(x),单位bit
理解:根据上面所说,概率越小,信息量越大;概率越大,信息量越小。
那么可以延伸为,p(x)=0时,I(x)=∞;p(x)=1时,I(x)=0。p(x)=0时,I(x)=∞;p(x)=1时,I(x)=0。p(x)=0时,I(x)=∞;p(x)=1时,I(x)=0。
那有没有一种函数能满足上述条件呢?没错,那就是y=−lognxy=-\log_{n}xy=−lognx
常取y=−log2xy=-\log_{2}xy=−log2x,单位为比特。
当底数为e时,单位为奈特(nat)。
特性:(摘自曹雪红编著的《信息论与编码》)
①当p(x)=1,I(x)=0;
②当p(x)=0,I(x)=∞\infty∞;
③若两个事件x,y同时出现,可以用联合概率p(x,y)来表示他们同时发生的概率。这时,x,y同时出现这个联合事件(x,y)的自信息量为I(x,y)=−log2p(x,y)I(x,y)=-\log_{2}p(x,y)I(x,y)=−log2p(x,y);当x和y相互独立时,有p(x,y)=p(x)p(y)p(x,y)=p(x)p(y)p(x,y)=p(x)p(y),那么就有I(x,y)=I(x)+I(y)I(x,y)=I(x)+I(y)I(x,y)=I(x)+I(y)。
若两个事件的出现不适独立的,而是有相互联系的,则可以用条件概率p(x|y)来表示,即在事件y出现的概率下,事件x发生的条件概率,这样x的条件自信息量可以定义为
I(x∣y)=−log2p(x∣y)——(A)I(x|y)=-log_{2}p(x|y)——(A)
I(x∣y)=−log2p(x∣y)——(A)
事件xix_ixi的不确定度在数值上等于它的信息量,而不论事件发生与否,只要其概率p(xi)p(x_i)p(xi)存在,那么它就有不确定度;而事件xix_ixi的信息量是事件发生后带给人们的信息量。
2.熵
熵指的是随机变量的熵;熵是随机变量不确定度的度量。
定义:设X是一个离散型随机变量,分布律为p(x)p(x)p(x),χ\chiχ为取值空间集合 ,则随机变量X的熵H(X)定义为:
H(X)=−∑x∈χp(x)log2p(x),单位bitH(X)=-\sum_{x\in \chi }^{ } p(x)\log_{2}p(x) ,单位bit
H(X)=−x∈χ∑p(x)log2p(x),单位bit
理解:熵是数学期望!熵是数学期望!熵是数学期望!
设离散型随机变量X,那么X的熵的含义就是X的所有可能的事件x∈χx\in \chix∈χ 的自信息量( 即III(xxx) )的期望:
H(X)=E(I(x))H(X)=E(I(x))
H(X)=E(I(x))
=∑x∈χp(x)I(x)=\sum_{x\in \chi }^{ } p(x)I(x)
=x∈χ∑p(x)I(x)
=∑x∈χp(x)(−log2p(x))=\sum_{x\in \chi}^{ }p(x)(-\log_{2}p(x))
=x∈χ∑p(x)(−log2p(x))
=−∑x∈χp(x)log2p(x)=-\sum_{x\in \chi }^{ } p(x)\log_{2}p(x)
=−x∈χ∑p(x)log2p(x)
所以可概述为,
熵=∑所有事件事件发生的概率×事件的信息量熵=\sum_{所有事件}^{ }事件发生的概率×事件的信息量熵=所有事件∑事件发生的概率×事件的信息量
随机变量X的熵实际上是X的分布的泛函数,不依赖于X的实际取值,只依赖于X的分布。
泛函数:输入为函数,输出为实数的函数。
!!注:若离散型随机变量X的概率分布为p(x),则X的熵H(X)通常也记为H ( p )。
小结:信息量是事件的信息量,熵是随机变量的信息量;熵是自信息量的期望,所以可以理解为H=Iˉ\bar{I}Iˉ所以熵也是信息量。——(B)
3.联合熵
定义:对于联合分布为p(x,y)的一对离散型随机变量(X,Y),其联合熵(joint entropy) H(X,Y) 定义为:
H(X,Y)=−∑所有x∑所有yp(x,y)log2p(x,y),单位bit。H(X,Y) =-\sum_{所有x}^{ }\sum_{所有y}^{ }p(x,y)log_{2}p(x,y),单位bit。H(X,Y)=−所有x∑所有y∑p(x,y)log2p(x,y),单位bit。
理解:熵是数学期望!熵是数学期望!熵是数学期望!
联合熵的含义就是所有可能事件(xxx,yyy)的自信息量的期望。
H(X,Y)=E(I(X,Y))=−E(log2p(x,y))H(X,Y)=E(I(X,Y))=-E(log_{2}p(x,y))
H(X,Y)=E(I(X,Y))=−E(log2p(x,y))
=−∑所有x∑所有yp(x,y)log2p(x,y),单位bit=-\sum_{所有x}^{ }\sum_{所有y}^{ }p(x,y)log_{2}p(x,y),单位bit
=−所有x∑所有y∑p(x,y)log2p(x,y),单位bit
4.条件熵
条件熵H(Y|X)可解释为,在随机变量X的条件下,随机变量Y的不确定性。
定义:X和Y均为离散型随机变量,若(X,Y)~p(x,y),条件熵(conditional entropy) H(Y|X)定义为:
H(Y∣X)=−∑所有x∑所有yp(x,y)log2p(y∣X=x)H(Y|X)=-\sum_{所有x}^{ }\sum_{所有y }^{ }p(x,y)\log_{2}p(y|X=x)
H(Y∣X)=−所有x∑所有y∑p(x,y)log2p(y∣X=x)
=∑所有x∑所有yp(x,y)I(y∣x)——(精髓)=\sum_{所有x}^{ }\sum_{所有y }^{ }p(x,y)I(y|x)——(精髓)
=所有x∑所有y∑p(x,y)I(y∣x)——(精髓)
理解:熵是数学期望!熵是数学期望!熵是数学期望!
条件熵可以理解为随机变量Y在以随机变量X为条件下的条件概率分布的熵对X的数学期望。这句话可能读起来依然很绕。
首先理解,★对▲的数学期望:★是随机变量,▲也是随机变量;在计算期望的时候,★提供变量,▲提供分布。
首先回顾一下熵的公式,这是在离散型随机变量Y在无条件限制下的熵:
H(Y)=−∑所有yp(y)log2p(y)H(Y)=-\sum_{所有y}^{ } p(y)\log_{2}p(y)
H(Y)=−所有y∑p(y)log2p(y)
=∑所有yp(y)I(y)=\sum_{所有y}^{ } p(y)I(y)
=所有y∑p(y)I(y)
=E[I(y)]=E[I(y)]
=E[I(y)]
新增离散型随机变量X,当增加“在事件X=xxx的条件下”时,所有的概率p(y)都要化为p(y|X=x),那么此时随机变量Y在事件X=xxx的条件下的条件熵应写为:
H(Y∣X=x)=−∑所有yp(y∣X=x)log2p(y∣X=x)H(Y|X=x)=-\sum_{所有y }^{ } p(y|X=x)\log_{2}p(y|X=x)
H(Y∣X=x)=−所有y∑p(y∣X=x)log2p(y∣X=x)
=∑所有yp(y∣X=x)I(y∣X=x)=\sum_{所有y }^{ } p(y|X=x)I(y|X=x)
=所有y∑p(y∣X=x)I(y∣X=x)
=Iˉ(Y∣X=x),不规范写法,便于理解=\bar{I}(Y|X=x),不规范写法,便于理解
=Iˉ(Y∣X=x),不规范写法,便于理解
那么,随机变量Y在随机变量X(包含了很多个事件x1x_1x1,x2x_2x2,…xix_ixi)的条件下的条件熵是否就够应为如下所示,再次提醒:熵是信息量的期望,熵本身也是信息量
H(Y∣X)=Ex[Iˉ(Y∣X=x)]H(Y|X)=E_x[\bar{I}(Y|X=x)]
H(Y∣X)=Ex[Iˉ(Y∣X=x)]
=∑所有xp(x)Iˉ(Y∣X=x)=\sum_{所有x}^{ }p(x)\bar{I}(Y|X=x)
=所有x∑p(x)Iˉ(Y∣X=x)
=∑所有xp(x)H(Y∣X=x)=\sum_{所有x}^{ }p(x)H(Y|X=x)
=所有x∑p(x)H(Y∣X=x)
=∑所有xp(x)[−∑所有yp(y∣X=x)log2p(y∣X=x)]=\sum_{所有x}^{ }p(x)[-\sum_{所有y }^{ } p(y|X=x)\log_{2}p(y|X=x)]
=所有x∑p(x)[−所有y∑p(y∣X=x)log2p(y∣X=x)]
=−∑所有x∑所有y[p(x)⋅p(y∣X=x)]log2p(y∣X=x)=-\sum_{所有x}^{ }\sum_{所有y }^{ }[p(x)·p(y|X=x)]\log_{2}p(y|X=x)
=−所有x∑所有y∑[p(x)⋅p(y∣X=x)]log2p(y∣X=x)
=−∑所有x∑所有yp(x,y)log2p(y∣X=x)=-\sum_{所有x}^{ }\sum_{所有y }^{ }p(x,y)\log_{2}p(y|X=x)
=−所有x∑所有y∑p(x,y)log2p(y∣X=x)
=∑所有x∑所有yp(x,y)I(y∣x)=\sum_{所有x}^{ }\sum_{所有y }^{ }p(x,y)I(y|x)
=所有x∑所有y∑p(x,y)I(y∣x)
还不理解,可以参考这篇博客。https://blog.youkuaiyun.com/xwd18280820053/article/details/70739368
5.互信息
设随机变量X为信源符号集合,随机变量Y为信宿符号集合,则互信息I(X;Y)表示信宿收到一个符号时,平均能够获得的信源的信息量;也可理解为X与Y之间的离散信道上传输每个符号的平均信息量。
定义先验概率为信源X的分布p(xi)p(x_i)p(xi)。
当信宿收到一个符号yjy_jyj后,信宿可以计算信源发出各符号的条件概率p(xi∣yj)p(x_i|y_j)p(xi∣yj),定义为后验概率。
随机变量可等价为信源,事件可等价为符号。
定义:事件yjy_jyj与事件xix_ixi间的互信息量表示从事件yyy发生所得到的关于事件xxx的信息量。互信息量定义为后验概率与先验概率之比的对数。即:
I(xi;yj)=I(xi)−I(xi∣yj),单位bitI(x_i;y_j)=I(x_i)-I(x_i|y_j),单位bit
I(xi;yj)=I(xi)−I(xi∣yj),单位bit
=log2p(xi∣yj)p(xi),单位bit=log_{2}\frac{p(x_i|y_j)}{p(x_i)},单位bit
=log2p(xi)p(xi∣yj),单位bit
理解:
事件xi,yjx_i,y_jxi,yj之间的互信息等于“xix_ixi的自信息”减去 “yjy_jyj条件下x的自信息”。 (自信息在数值上=不确定度)
I(xi)I(x_i)I(xi)表示xix_ixi的不确定度,I(xi∣yj)I(x_i|y_j)I(xi∣yj)表示在yjy_jyj发生条件下xix_ixi的不确定度,I(xi;yj)I(x_i;y_j)I(xi;yj)表示当yjy_jyj发生后xix_ixi不确定度的变化。两个不确定度之差,是不确定度消除的部分(即不确定度的减少量),表示已经确定的东西,实际就是由y发生所得到的关于x的信息量。
定义:平均条件互信息量为互信息量I(xi;yj)I(x_i;y_j)I(xi;yj)在X集合上的统计平均值(加权平均值):
I(X;yj)=∑所有xp(xi∣yj)I(xi;yj),单位bitI(X;y_j)=\sum_{所有x}^{ }p(x_i|y_j)I(x_i;y_j),单位bit
I(X;yj)=所有x∑p(xi∣yj)I(xi;yj),单位bit
含义:信宿收到符号yjy_jyj
定义:平均互信息量为平均条件互信息量I(xi;yj)I(x_i;y_j)I(xi;yj)在Y集合上的统计平均值,也称为平均交互信息量或交互熵:
I(X;Y)=∑所有yp(yj)I(X;yj)I(X;Y)=\sum_{所有y}^{ }p(y_j)I(X;y_j)
I(X;Y)=所有y∑p(yj)I(X;yj)
=∑所有yp(yj)∑所有xp(xi∣yj)I(xi;yj)=\sum_{所有y}^{ }p(y_j)\sum_{所有x}^{ }p(x_i|y_j)I(x_i;y_j)
=所有y∑p(yj)所有x∑p(xi∣yj)I(xi;yj)
=∑所有x∑所有yp(yj)p(xi∣yj)I(xi;yj)=\sum_{所有x}^{ }\sum_{所有y}^{ }p(y_j)p(x_i|y_j)I(x_i;y_j)
=所有x∑所有y∑p(yj)p(xi∣yj)I(xi;yj)
=∑所有x∑所有yp(xi,yj)log2p(xi∣yj)p(xi),单位bit=\sum_{所有x}^{ }\sum_{所有y}^{ }p(x_i,y_j)log_{2}\frac{p(x_i|y_j)}{p(x_i)},单位bit
=所有x∑所有y∑p(xi,yj)log2p(xi)p(xi∣yj),单位bit
意义:平均互信息I(X;Y)I(X;Y)I(X;Y)克服了互信息量I(xi;yj)I(x_i;y_j)I(xi;yj)的随机性,成为一个确定的量。因此可以作为信道中流通信息量的整体测度。
性质:
I(X;Y)=H(X)−H(X∣Y)——(1)I(X;Y)=H(X)-H(X|Y)——(1)
I(X;Y)=H(X)−H(X∣Y)——(1)
I(Y;X)=H(Y)−H(Y∣X)=I(X;Y)I(Y;X)=H(Y)-H(Y|X)=I(X;Y)
I(Y;X)=H(Y)−H(Y∣X)=I(X;Y)
上述(1)式说明了平均互信息的物理意义:I(X;Y)I(X;Y)I(X;Y)是H(X)H(X)H(X)-H(X∣Y)H(X|Y)H(X∣Y)之差。因为H(X)是符号X的熵或者不确定度,而H(X|Y)是当Y已知时X的不确定度,那么可见“Y已知”这件事使得X的不确定度减少了I(X;Y),这意味着“Y已知后”所获得的关于X的信息是I(X;Y)。
6.信道容量
信息传输率:R=I(X;Y)R=I(X;Y)R=I(X;Y) ,单位bit/符号
信息传输速率:Rt=I(X;Y)tR_t=\frac{I(X;Y)}{t}Rt=tI(X;Y),单位bit/s
信道容量:最大的信息传输率。C=maxp(x)I(X;Y),单位bit/符号C=\underset{p(x)}{max}I(X;Y),单位bit/符号C=p(x)maxI(X;Y),单位bit/符号
根据信道容量的定义,就是在固定信道条件下,对所有可能的输入概率分布p(x)求平均互信息的极大值。==I(X;Y)是输入概率的上凸函数,故极大值一定存在。==并且I(X;Y)I(X;Y)I(X;Y)是个多个变量p(x1),p(x2),......p(x_1),p(x_2),......p(x1),p(x2),......的多元函数,且p(x1)+p(x2)+......=1p(x_1)+p(x_2)+......=1p(x1)+p(x2)+......=1,所以可以用拉格朗日乘值法计算这个条件极值。
矩阵奇异:若n阶矩阵A的行列式不为零,即 |A|≠0,则称A为非奇异矩阵,否则称A为奇异矩阵。
达到信道容量的输入分布的充要条件:一般离散信道的互信息I(X;Y)I(X;Y)I(X;Y)达到极大值(即等于信道容量)的充要条件是输入概率分布p(x)满足
{I(xi;Y)=C,p(xi)≠0I(xi;Y)≤C,p(xi)=0\left\{\begin{matrix}
I(x_i;Y)=C,p(x_i)\neq 0\\
I(x_i;Y)\leq C,p(x_i)=0
\end{matrix}\right.
{I(xi;Y)=C,p(xi)=0I(xi;Y)≤C,p(xi)=0
理解:当信道平均互信息达到信道容量时,输入信源符号集中每一个信源符号对输出端y提供相同端互信息,只是概率为0的符号除外。
一般信道的计算方法:若转移矩阵非奇异,且信源符号个数r与信宿符号个数s相等(即转移矩阵是方阵),则C=log2∑j=1s2βjC=\log_{2}\sum_{j=1}^{s}2^{\beta _{j}}C=log2∑j=1s2βj,其中βi\beta_iβi由以下式子确定:
∑j=1sp(yj∣xi)βj=∑j=1sp(yj∣xi)log2p(yj∣xi),i=1,2,......,r\sum_{j=1}^{s}p(y_j|x_i)\beta_j=\sum_{j=1}^{s}p(y_j|x_i)\log_{2}p(y_j|x_i),i=1,2,......,r
j=1∑sp(yj∣xi)βj=j=1∑sp(yj∣xi)log2p(yj∣xi),i=1,2,......,r
且βj=C+log(p(yj))\beta_j=C+log(p(y_j))βj=C+log(p(yj)),所以可以求p(yj)p(y_j)p(yj)。
例题:求如下转移矩阵的信道容量,Z信道
特殊信道的容量
1.一一对应信道:一个输入符号唯一对应一个输出符号。转移矩阵每列仅一个非零元素,则H(X|Y)=H(Y|X)=0,则I(X;Y)=H(X)=H(Y)。设输入输出个数都为n,信道容量C=maxp(x)I(X;Y)=maxp(x)H(X)=log2nC=\underset{p(x)}{max}I(X;Y)=\underset{p(x)}{max}H(X)=log_2nC=p(x)maxI(X;Y)=p(x)maxH(X)=log2n当且仅当输入分布为均匀分布时达到。
2.扩展性信道(一对多信道):每列只有一个非零元素,后验概率(条件熵)H(X|Y)=0,I(X;Y)=H(X)-H(X|Y)=H(X),设n位输入符号数目,则
C=maxp(x)I(X;Y)=maxp(x)H(X)=log2nC=\underset{p(x)}{max}I(X;Y)=\underset{p(x)}{max}H(X)=log_2nC=p(x)maxI(X;Y)=p(x)maxH(X)=log2n
3.归并性信道(多对一信道):每行仅一个非零元素。H(Y|X)=0。I(X;Y)=H(Y)-H(Y|X)=H(Y),m位输出符号的个数,则信道容量
C=maxp(x)I(X;Y)=maxp(x)H(Y)=log2mC=\underset{p(x)}{max}I(X;Y)=\underset{p(x)}{max}H(Y)=log_2mC=p(x)maxI(X;Y)=p(x)maxH(Y)=log2m
达到信道容量时,输入分布不唯一,只要p(b1)=p(b2)=p(b3)即可p(b_1)=p(b_2)=p(b_3)即可p(b1)=p(b2)=p(b3)即可
4.强对称信道:输入符号集X:{x1,x2,...,xrx_1,x_2,...,x_rx1,x2,...,xr},输出符号集Y:{y1,y2,...yry_1,y_2,...y_ry1,y2,...yr}。每一个输入符号的正确传递概率为(1-ε\varepsilonε),总的错误传递概率ε\varepsilonε均匀分配在其他(r-1)个错误传递概率上,即每个错误传递概率为εr−1\frac{\varepsilon}{r-1}r−1ε,信道矩阵如下
C=maxp(x)I(X;Y)=maxp(x)[H(Y)−H(Y∣X)],(H(Y∣X)是个常数)C=\underset{p(x)}{max}I(X;Y)=\underset{p(x)}{max}[H(Y)-H(Y|X)],(H(Y|X)是个常数)
C=p(x)maxI(X;Y)=p(x)max[H(Y)−H(Y∣X)],(H(Y∣X)是个常数)
=maxp(x)[H(Y)−H(ε,1−ε)−εlog(r−1)]=\underset{p(x)}{max}[H(Y)-H(\varepsilon,1-\varepsilon)-\varepsilon log(r-1)]
=p(x)max[H(Y)−H(ε,1−ε)−εlog(r−1)]
=maxp(x)[H(Y)]−H(ε,1−ε)−εlog(r−1)=\underset{p(x)}{max}[H(Y)]-H(\varepsilon,1-\varepsilon)-\varepsilon log(r-1)
=p(x)max[H(Y)]−H(ε,1−ε)−εlog(r−1)
→输出等概分布logr−H(ε,1−ε)−εlog(r−1)\xrightarrow[ ]{输出等概分布}logr-H(\varepsilon,1-\varepsilon)-\varepsilon log(r-1)
输出等概分布logr−H(ε,1−ε)−εlog(r−1)
仅当输入等概分布时,输出才是等概分布。
二元对称信道(BSC信道)就是它的特例。
5.对称离散信道:转移矩阵的每一行是第一行的重排,每一列也是第一列的重排。
C=log2s−H(转移矩阵的一行)C=log_2{s}-H(转移矩阵的一行)
C=log2s−H(转移矩阵的一行)
6.准对称信道:将转移矩阵的列进行无重复的重排,可以重组成若干个对称离散信道,这样的信道称为准对称信道。