教材:《信息论基础》(第三版)石峰,莫忠息,武汉大学出版社
第1-4章
为了复习之便,对教材顺序可能有所调整。
Chapter 1 概论

老三论:控制论,系统论,信息论
Shannon,1956:Shannon熵
自信息:I(A)=−logP(A)I(A)=-\log P(A)I(A)=−logP(A) 事件的发生概率越小,产生的信息量越大
熵:H=−∑ipilog(pi)H=-\sum_{i} p_i\log (p_i)H=−∑ipilog(pi)
Chapter 2 信息与熵
离散信源:(S,P)(S,P)(S,P): 有限符号集S={x1,...,xn}S=\{x_1,...,x_n\}S={x1,...,xn},P为其上的一个概率分布,其中xix_ixi的概率为pip_ipi
自信息:I(xi)=−logpiI(x_i)=-\log p_iI(xi)=−logpi,其中底数可以任意取,但一般取为2,此时信息的单位为bit 意义:一个从{0,1}中等概率取值的随机变量的信息为1bit
熵:H(S)=−∑ipilogpiH(S)=-\sum_i p_i\log p_iH(S)=−∑ipilogpi,特别地,指定0⋅log0=00 ·log0=00⋅log0=0
熵函数的唯一性:满足以下三个直觉性质的熵函数唯一,形如H(S)=−∑ipilogCpiH(S)=-\sum_i p_i\log_C p_iH(S)=−∑ipilogCpi
- H(p1,...,pn)H(p_1,...,p_n)H(p1,...,pn)对所有分布有定义且连续
- H(1n,...,1n)<H(1n+1,...,1n+1)H(\frac{1}{n},...,\frac{1}{n})< H(\frac{1}{n+1},...,\frac{1}{n+1})H(n1,...,n1)<H(n+11,...,n+11)
- H(1n,...,1n)=H(b1n,...,bkn)+∑ikbinH(1bi,...,1bi)H(\frac{1}{n},...,\frac{1}{n})=H(\frac{b_1}{n},...,\frac{b_k}{n})+\sum_i^k \frac{b_i}{n}H(\frac{1}{b_i},...,\frac{1}{b_i})H(n1,...,n1)=H(nb1,...,nbk)+∑iknbiH(bi1,...,bi1)
熵的性质:
- 0≤H(S)≤logn0\leq H(S)\leq \log n0≤H(S)≤logn,前者取等当且仅当pk=1p_k=1pk=1,其余为0,后者取等当且仅当pi=1n,∀ip_i=\frac{1}{n},\forall ipi=n1,∀i
- 与x1,,..,xnx_1,,..,x_nx1,,..,xn的顺序无关,仅与概率分布有关
- 特别的,如果一个离散随机变量X的分布和S相同,则X的熵定义同上,之后也不再和信源区分
联合熵:H(X,Y)=−∑i,jp(xi,yj)logp(xi,yj)H(X,Y)=-\sum_{i,j} p(x_i,y_j)\log p(x_i,y_j)H(X,Y)=−∑i,jp(xi,yj)logp(xi,yj)
显然,X和Y的联合熵就是随机向量(X,Y)的熵,同理可以定义多元联合熵
性质4:H(X,Y)≤H(X)+H(Y)H(X,Y)\leq H(X)+H(Y)H(X,Y)≤H(X)+H(Y),取等当且仅当X和Y独立(用条件熵比较好证),同理H(X1,...,Xn)≤H(X1)+...+H(Xn)H(X_1,...,X_n)\leq H(X_1)+...+H(X_n)H(X1,...,Xn)≤H(X1)+...+H(Xn)
条件熵:H(X∣Y=y)=−∑ip(xi∣y)logp(xi∣y)H(X|Y=y)=-\sum_i p(x_i|y)\log p(x_i|y)H(X∣Y=y)=−∑ip(xi∣y)logp(xi∣y)
H(X∣Y)=∑jp(Y=yj)H(X∣Y=yj)=−∑i,jp(xi,yj)logp(xi∣yj)H(X|Y)=\sum_jp(Y=y_j)H(X|Y=y_j)=-\sum_{i,j} p(x_i,y_j)\log p(x_i|y_j)H(X∣Y)=∑jp(Y=yj)H(X∣Y=yj)=−∑i,jp(xi,yj)logp(xi∣yj)
由于p(xi∣yj)=p(xi,yj)/p(yj)p(x_i|y_j)=p(x_i,y_j)/p(y_j)p(xi∣yj)=p(xi,yj)/p(yj),可得以下式子:
H(X∣Y)=H(X,Y)−H(Y)H(X|Y)=H(X,Y)-H(Y)H(X∣Y)=H(X,Y)−H(Y)
推论:性质5:H(X∣Y)≤H(X,Y),H(Y)≤H(X,Y)H(X|Y)\leq H(X,Y),H(Y)\leq H(X,Y)H(X∣Y)≤H(X,Y),H(Y)≤H(X,Y)
性质6(条件熵减):H(X∣Y)≤H(X)H(X|Y)\leq H(X)H(X∣Y)≤H(X),取等当且仅当X和Y独立
推论:性质4
熵函数的性质:
性质7:∑ipilog1pi≤∑ipilog1qi\sum_i p_i \log \frac{1}{p_i}\leq \sum_i p_i \log \frac{1}{q_i}∑ipilogpi1≤∑ipilogqi1对任意分布p和子分布q成立(∑iqi≤1\sum_i q_i\leq1∑iqi≤1)
性质8:可加性(分组求熵),对称性,扩展性(增加一个取值ϵ\epsilonϵ的随机变量没有影响)
(下)凸函数:形如y=x2y=x^2y=x2;反之为凹(上凸)函数
性质9:在n元概率分布定义的凸空间K上,熵函数H(p1,...,pn)H(p_1,...,p_n)H(p1,...,pn)为凹函数
微分熵:
对于连续型随机变量X,定义其微分熵HC(X)=−∫−∞∞p(x)lnp(x)dxH_C(X)=-\int_{-\infty}^{\infty} p(x)\ln p(x)dxHC(X)=−∫−∞∞p(x)lnp(x)dx(底数为自然对数)
对于常见的分布:
HC(U[a,b])=ln(b−a)H_C(U[a,b])=\ln (b-a)HC(U[a,b])=ln(b−a), HC(N[μ,σ2])=12ln(2πeσ2)H_C(N[\mu,\sigma^2])=\frac{1}{2} \ln (2\pi e\sigma^2)HC(N[μ,σ2])=21ln(2πeσ2)
对于一般的分布X:熵功率σˉ2=12πee2HC(X)\bar{\sigma}^2=\frac{1}{2\pi e} e^{2H_C(X)}σˉ2=2πe1e2HC(X),特别的,对于正态分布,熵功率和方差相等
性质10:微分熵和熵最大的区别为其取值范围为(−∞,∞)(-\infty,\infty)(−∞,∞)
其它微分熵:HC(X,Y),HC(X∣Y)H_C(X,Y),H_C(X|Y)HC(X,Y),HC(X∣Y),保持了以下关系:
性质11:HC(X∣Y)+HC(Y)=HC(X,Y)H_C(X|Y)+H_C(Y)=H_C(X,Y)HC(X∣Y)+HC(Y)=HC(X,Y)
性质12:HC(X∣Y)≤HC(X)H_C(X|Y)\leq H_C(X)HC(X∣Y)≤HC(X)
性质13:HC(X)+HC(Y)≤HC(X,Y)H_C(X)+H_C(Y)\leq H_C(X,Y)HC(X)+HC(Y)≤HC(X,Y)
附加约束下的微分熵界限:
性质14:若X在(-M,M)上取值,则HC(X)≤ln2MH_C(X)\leq \ln 2MHC(X)≤ln2M,取等当且仅当X为均匀分布
性质15:若X的方差为σ2\sigma^2σ2,则HC(X)≤ln2πeσH_C(X)\leq \ln \sqrt{2 \pi e}\sigmaHC(X)≤ln2πeσ,取等当且仅当X为正态分布
注:求一个随机变量X的函数g(X)的密度函数的方法:
- 直接求g(X)的分布函数F(a)=P{g(X)<a}F(a)=P\{g(X)<a\}F(a)=P{g(X)<a},再对F求导得到密度函数
- (密度变换公式)设随机变量 ξ\xiξ 的密度函数为 pξ(x),a<x<bp_{\xi}(x), a<x<bpξ(x),a<x<b. 如果可 以把 (a,b)(a, b)(a,b) 分割为一些 (有限个或可列个) 互不重叠的子区间的和 (a,b)=⋃jIj(a, b)=\bigcup_{j} I_{j}(a,b)=⋃jIj, 使得函数 u=g(t),t∈(a,b)u=g(t), t \in(a, b)u=g(t),t∈(a,b) 在每个子区间上有唯一的反函数 hj(u)h_{j}(u)hj(u), 并且 hj′(u)h_{j}^{\prime}(u)hj′(u) 存 在连续, 则 η=g(ξ)\eta=g(\xi)η=g(ξ) 是连续型随机变量, 其密度函数为:
pη(x)=∑jpξ(hj(x))∣hj′(x)∣ p_{\eta}(x)=\sum_{j} p_{\xi}\left(h_{j}(x)\right)\left|h_{j}^{\prime}(x)\right| pη(x)=j∑pξ(hj(x))∣∣hj′(x)∣∣
例如:X∼U[a,b]X\sim U[a,b]X∼U[a,b],求X2X^2X2的密度函数。
解:1:F(k)=P{X2<k}=P{−k<X<k}=1b−a(min{k,b}−max{−k,a})(k>0)F(k)=P\{X^2<k\}=P\{-\sqrt{k}<X<\sqrt{k}\}=\frac{1}{b-a}({\min\{\sqrt{k},b\}}-\max\{-\sqrt{k},a\})(k>0)F(k)=P{X2<k}=P{−k<X<k}=b−a1(min{k,b}−max{−k,a})(k>0),然后分类对k求导即可
2:由于需要X2X^2X2单调,因此需要将[a,b]分割为大于0和小于0的两部分:
在大于0的部分:g的反函数是x\sqrt{x}x,导数存在连续,则pg(X)(x)=pX(x)×12x−12p_{g(X)}(x)= p_X(\sqrt{x})\times \frac{1}{2}x^{-\frac{1}{2}}pg(X)(x)=pX(x)×21x−21,小于0的部分同理,加上讨论和判断x\sqrt{x}x的取值区间即可。
Chapter 3 互信息
互信息:事件bjb_jbj对于事件aia_iai的互信息I(ai;bj)=logp(ai,bj)p(ai)p(bj)=logp(ai∣bj)p(ai)=I(bj;ai)I(a_i;b_j)=\log \frac{p(a_i,b_j)}{p(a_i)p(b_j)}=\log \frac{p(a_i|b_j)}{p(a_i)}=I(b_j;a_i)I(ai;bj)=logp(ai)p(bj)p(ai,bj)=logp(ai)p(ai∣bj)=I(bj;ai),独立时=0
特别的,I(ai;ai)=I(ai)I(a_i;a_i)=I(a_i)I(ai;ai)=I(ai)(自信息)
条件自信息:I(ai∣bj)=logp(bj)p(ai,bj)I(a_i|b_j)=\log \frac{p(b_j)}{p(a_i,b_j)}I(ai∣bj)=logp(ai,bj)p(bj)
联合自信息:I(ai,bj)=log1p(ai,bj)I(a_i,b_j)=\log \frac{1}{p(a_i,b_j)}I(ai,bj)=logp(ai,bj)1
记忆方法:I(Y)=log1p(Y)I(Y)=\log{\frac{1}{p(Y)}}I(Y)=logp(Y)1
性质1:I(ai;bj)+I(ai,bj)=I(ai)+I(bj)I(a_i;b_j)+I(a_i,b_j)=I(a_i)+I(b_j)I(ai;bj)+I(ai,bj)=I(ai)+I(bj)
条件互信息:在条件x1,...,xn−2x_1,...,x_{n-2}x1,...,xn−2下的xNx_NxN关于xN−1x_{N-1}xN−1的条件互信息:I(xN;xN−1∣x1,⋯ ,xN−2)=logp(xN∣x1,⋯ ,xN−2,xN−1)p(xN∣x1,⋯ ,xN−2)I\left(x_{N} ; x_{N-1} \mid x_{1}, \cdots, x_{N-2}\right)=\log \frac{p\left(x_{N} \mid x_{1}, \cdots, x_{N-2}, x_{N-1}\right)}{p\left(x_{N} \mid x_{1}, \cdots, x_{N-2}\right)}I(xN;xN−1∣x1,⋯,xN−2)=logp(xN∣x1,⋯,xN−2)p(xN∣x1,⋯,xN−2,xN−1)
联合事件和事件之间的互信息:
I(ai;bj,ck)=logp(ai∣bj,ck)p(ai)I\left(a_{i} ; b_{j}, c_{k}\right)=\log \frac{p\left(a_{i} \mid b_{j}, c_{k}\right)}{p\left(a_{i}\right)}I(ai;bj,ck)=logp(ai)p(ai∣bj,ck)
性质2:I(ai;bj,ck)=I(ai;bj)+I(ai;ck∣bj)==I(bj,ck;ai)=I(bj;ai)+I(ck;ai∣bj)=I(ai;bj)+I(ck;ai∣bj).I\left(a_{i} ; b_{j}, c_{k}\right)=I\left(a_{i} ; b_{j}\right)+I\left(a_{i} ; c_{k} \mid b_{j}\right)=\begin{aligned}
&=I\left(b_{j}, c_{k} ; a_{i}\right) \\
&=I\left(b_{j} ; a_{i}\right)+I\left(c_{k} ; a_{i} \mid b_{j}\right) \\
&=I\left(a_{i} ; b_{j}\right)+I\left(c_{k} ; a_{i} \mid b_{j}\right) .
\end{aligned}I(ai;bj,ck)=I(ai;bj)+I(ai;ck∣bj)==I(bj,ck;ai)=I(bj;ai)+I(ck;ai∣bj)=I(ai;bj)+I(ck;ai∣bj).
注意:符号“,”,“;”,“|”的运算次序为 “,”,“;”和“|”.
平均互信息:
定义为各个事件的互信息的数学期望
I(X;Y)=E(I(ai;bj))=∑i∑jp(ai,bj)logp(ai,bj)p(ai)p(bj)I(X ; Y)=E\left(I\left(a_{i} ; b_{j}\right)\right)=\sum_{i} \sum_{j} p\left(a_{i}, b_{j}\right) \log \frac{p\left(a_{i}, b_{j}\right)}{p\left(a_{i}\right) p\left(b_{j}\right)}I(X;Y)=E(I(ai;bj))=∑i∑jp(ai,bj)logp(ai)p(bj)p(ai,bj)
性质3:I(X;Y)=H(X)−H(X∣Y)=H(X)+H(Y)−H(X,Y)≥0I(X ; Y)=H(X)-H(X \mid Y)\\=H(X)+H(Y)-H(X, Y)
\geq0I(X;Y)=H(X)−H(X∣Y)=H(X)+H(Y)−H(X,Y)≥0

同理,有:
平均联合互信息:I(X;YZ)=H(X)−H(X∣YZ)=H(YZ)−H(YZ∣X)≥0\begin{aligned}
I(X ; Y Z) &=H(X)-H(X \mid Y Z) \\
&=H(Y Z)-H(Y Z \mid X)
\end{aligned}\geq0I(X;YZ)=H(X)−H(X∣YZ)=H(YZ)−H(YZ∣X)≥0
平均条件互信息:I(X;Y∣Z)=∑k∑j∑lp(ak,bj,cl)logp(ak,bj∣cl)p(ak∣cl)p(bj∣cl)≥0I(X ; Y \mid Z)=\sum_{k} \sum_{j} \sum_{l} p\left(a_{k}, b_{j}, c_{l}\right) \log \frac{p\left(a_{k}, b_{j} \mid c_{l}\right)}{p\left(a_{k} \mid c_{l}\right) p\left(b_{j} \mid c_{l}\right)}\geq0I(X;Y∣Z)=∑k∑j∑lp(ak,bj,cl)logp(ak∣cl)p(bj∣cl)p(ak,bj∣cl)≥0
性质4:I(X;Y∣Z)=H(X∣Z)−H(X∣YZ),I(X;Y∣Z)=H(Y∣Z)−H(Y∣XZ).I(X;Y∣Z)=H(X∣Z)+H(Y∣Z)−H(XY∣Z).I(X;Y∣Z)=H(XZ)−H(Z)−H(XYZ)+H(Z)+H(YZ)−H(Z)=H(XZ)+H(YZ)−H(XYZ)−H(Z).\begin{aligned}
I(X ; Y \mid Z)=& H(X \mid Z)-H(X \mid Y Z), \\
I(X ; Y \mid Z)=& H(Y \mid Z)-H(Y \mid X Z) . \\
I(X ; Y \mid Z)=& H(X \mid Z)+H(Y \mid Z)-H(X Y \mid Z) . \\
I(X ; Y \mid Z)=& H(X Z)-H(Z)-H(X Y Z)+H(Z) \\
&+H(Y Z)-H(Z) \\
=& H(X Z)+H(Y Z)-H(X Y Z)-H(Z) .
\end{aligned}I(X;Y∣Z)=I(X;Y∣Z)=I(X;Y∣Z)=I(X;Y∣Z)==H(X∣Z)−H(X∣YZ),H(Y∣Z)−H(Y∣XZ).H(X∣Z)+H(Y∣Z)−H(XY∣Z).H(XZ)−H(Z)−H(XYZ)+H(Z)+H(YZ)−H(Z)H(XZ)+H(YZ)−H(XYZ)−H(Z).
多元互信息:
I(X;Y;Z)=∑k∑j∑lp(ak,bj,cl)logp(ak,bj)p(bj,cl)p(ak,cl)p(ak)p(bj)p(cl)p(ak,bj,cl)I(X ; Y ; Z)=\sum_{k} \sum_{j} \sum_{l} p\left(a_{k}, b_{j}, c_{l}\right) \log \frac{p\left(a_{k}, b_{j}\right) p\left(b_{j}, c_{l}\right) p\left(a_{k}, c_{l}\right)}{p\left(a_{k}\right) p\left(b_{j}\right) p\left(c_{l}\right) p\left(a_{k}, b_{j}, c_{l}\right)}I(X;Y;Z)=∑k∑j∑lp(ak,bj,cl)logp(ak)p(bj)p(cl)p(ak,bj,cl)p(ak,bj)p(bj,cl)p(ak,cl),不一定大于等于0
性质5:I(X;Y;Z)=I(X;Y)−I(X;Y∣Z)I(X ; Y ; Z)=I(X ; Y)-I(X ; Y \mid Z)I(X;Y;Z)=I(X;Y)−I(X;Y∣Z),由于X,Y,Z可以轮换,因此可以得到若干个条件互信息的关系式
互信息函数的性质:
可以将X与Y的互信息I(X;Y)I(X;Y)I(X;Y)看作关于X的概率分布P和Y关于X的条件分布矩阵Q的函数I(P,Q)I(P,Q)I(P,Q),则:
性质6:I(P,Q)I(P,Q)I(P,Q)是关于P的凹(上凸)函数
性质7:I(P,Q)I(P,Q)I(P,Q)是关于Q的凸(下凸)函数
同理,可以定义连续随机变量的互信息:
I(X;Y)=EXY(I(x;y))=∬XY(x,y)logpX∣Y(x∣y)pX(x)dx dy=∬XY(x,y)logpXY(x,y)pX(x)pY(y)dx dy.\begin{aligned}
I(X ; Y) &=E_{X Y}(I(x ; y)) \\
&=\iint_{X Y}(x, y) \log \frac{p_{X \mid Y}(x \mid y)}{p_{X}(x)} \mathrm{d} x \mathrm{~d} y \\
&=\iint_{X Y}(x, y) \log \frac{p_{X Y}(x, y)}{p_{X}(x) p_{Y}(y)} \mathrm{d} x \mathrm{~d} y .
\end{aligned}I(X;Y)=EXY(I(x;y))=∬XY(x,y)logpX(x)pX∣Y(x∣y)dx dy=∬XY(x,y)logpX(x)pY(y)pXY(x,y)dx dy.
I(X;Y∣Z)=∭XYZ(x,y,z)logpXY∣Z(x,y∣z)pX∣Z(x∣z)pY∣Z(y∣z)dx dy dzI(X ; Y \mid Z)=\iiint_{X Y Z}(x, y, z) \log \frac{p_{X Y \mid Z}(x, y \mid z)}{p_{X \mid Z}(x \mid z) p_{Y \mid Z}(y \mid z)} \mathrm{d} x \mathrm{~d} y \mathrm{~d} zI(X;Y∣Z)=∭XYZ(x,y,z)logpX∣Z(x∣z)pY∣Z(y∣z)pXY∣Z(x,y∣z)dx dy dz
I(XY;Z)=∭XYZ(x,y,z)logpXYZ(x,y,z)pXY(x,y)pZ(z)dx dy dzI(X Y ; Z)=\iiint_{X Y Z}(x, y, z) \log \frac{p_{X Y Z}(x, y, z)}{p_{X Y}(x, y) p_{Z}(z)} \mathrm{d} x \mathrm{~d} y \mathrm{~d} zI(XY;Z)=∭XYZ(x,y,z)logpXY(x,y)pZ(z)pXYZ(x,y,z)dx dy dz
性质8:I(X;Y)⩾0;I(X;Y)=I(Y;X),I(X;Y∣Z)=I(Y;X∣Z)I(XY;Z)=I(X;Z)+I(Y;Z∣X)=I(Y;Z)+I(X;Z∣Y)\begin{aligned}
&I(X ; Y) \geqslant 0 ; \\
&I(X ; Y)=I(Y ; X), I(X ; Y \mid Z)=I(Y ; X \mid Z) \\
&I(X Y ; Z)=I(X ; Z)+I(Y ; Z \mid X)=I(Y ; Z)+I(X ; Z \mid Y)
\end{aligned}I(X;Y)⩾0;I(X;Y)=I(Y;X),I(X;Y∣Z)=I(Y;X∣Z)I(XY;Z)=I(X;Z)+I(Y;Z∣X)=I(Y;Z)+I(X;Z∣Y)
Chapter 4 信源与信源编码简介
信源:信息的来源

离散无记忆信源的定长编码:
无记忆信源的输出是一个长为N的iid序列(x1,...,xN)(x_1,...,x_N)(x1,...,xN),p(x)=∏i=1Np(xi)p(x)=\prod_{i=1}^{N} p\left(x_{i}\right)p(x)=∏i=1Np(xi),自信息为I(x)=−logp(x)=∑i=1N(−logp(xi))=∑i=1NI(xi)I(x)=-\log p(x)=\sum_{i=1}^{N}\left(-\log p\left(x_{i}\right)\right)=\sum_{i=1}^{N} I\left(x_{i}\right)I(x)=−logp(x)=∑i=1N(−logp(xi))=∑i=1NI(xi),根据大数定律,平均自信息IN(x)≜I(x)N=1N∑i=1NI(xi)→H(X)=−∑i=1Kp(ai)logp(ai)=∑i=1Kp(ai)I(ai)I_{N}(x) \triangleq \frac{I(x)}{N}=\frac{1}{N} \sum_{i=1}^{N} I\left(x_{i}\right) \rightarrow H(X)=-\sum_{i=1}^{K} p\left(a_{i}\right) \log p\left(a_{i}\right)=\sum_{i=1}^{K} p\left(a_{i}\right) I\left(a_{i}\right)IN(x)≜NI(x)=N1∑i=1NI(xi)→H(X)=−∑i=1Kp(ai)logp(ai)=∑i=1Kp(ai)I(ai)
从而,无记忆信源的输出相当集中于平均信息量接近X的熵的小部分序列之中。从而,称集合
TX(N,ε)={x=x1⋯xN∣H(X)−ε⩽IN(x)⩽H(X)+ε}T_{X}(N, \varepsilon)=\left\{\boldsymbol{x}=x_{1} \cdots_{x_{N}} \mid H(X)-\varepsilon \leqslant I_{N}(\boldsymbol{x}) \leqslant H(X)+\boldsymbol{\varepsilon}\right\}TX(N,ε)={x=x1⋯xN∣H(X)−ε⩽IN(x)⩽H(X)+ε}
为输出长度为 NNN 的 ε\varepsilonε - 典型序列集合,在N趋于无穷时,典型序列的出现概率趋于1.
推论:性质1: 若 x=x1x2⋯xN∈TX(N,ε)x=x_{1} x_{2} \cdots x_{N} \in T_{X}(N, \varepsilon)x=x1x2⋯xN∈TX(N,ε), 则
2−N(H(X)+ϵ)⩽p(x)⩽2−N(H(X)−ε)2^{-N(H(X)+\epsilon)} \leqslant p(\boldsymbol{x}) \leqslant 2^{-N(H(X)-\varepsilon)}2−N(H(X)+ϵ)⩽p(x)⩽2−N(H(X)−ε),即p(x)≈2−NH(x).p(x) \approx 2^{-N H(x)} .p(x)≈2−NH(x).
推论:性质2:当 NNN 足够大时, 典型序列数目 ∣TX(N,ε)∣\left|T_{X}(N, \varepsilon)\right|∣TX(N,ε)∣ 满足
(1−ε)⋅2N(H(X)−ε)⩽∣TX(N,ε)∣⩽2N(H(X)+ε),
(1-\varepsilon) \cdot 2^{N(H(X)-\varepsilon)} \leqslant\left|T_{X}(N, \varepsilon)\right| \leqslant 2^{N(H(X)+\varepsilon)} \text {, }
(1−ε)⋅2N(H(X)−ε)⩽∣TX(N,ε)∣⩽2N(H(X)+ε),
记忆方法:由于每次取得典型序列的概率趋于1,因此典型序列的数量大约是每个典型序列出现概率的倒数
由此,得到关于无记忆信源的编码定理:
定长编码定理: 设离散无记忆信源 (S,X)(S,X)(S,X), 其熵 为 H(X)H(X)H(X), 被分成长为 NNN 的源字母组, 并用长为 MMM 的码字母组进行表示, 其 中, 码字母集 B={b1,b2,⋯ ,bJ}B=\left\{b_{1}, b_{2}, \cdots, b_{J}\right\}B={b1,b2,⋯,bJ}. 则对任给的 ε>0\varepsilon>0ε>0 及 δ>0\delta>0δ>0, 只要 NNN 足 够大, 且满足不等式
MNlogJ>H(X)+δ,
\frac{M}{N} \log J>H(X)+\delta,
NMlogJ>H(X)+δ,
则源字母组没有自己特定码字的概率 pep_{e}pe 可以小于 ε\varepsilonε.
定义:R=MNlogJR=\frac{M}{N} \log JR=NMlogJ 为编码速率或称码率,η=H(X)R\eta=\frac{H(X)}{R}η=RH(X)称为编码效率,通常小于1
离散无记忆信源的变长编码:
字母表:有限集A={a1,...,an}A=\{a_1,...,a_n\}A={a1,...,an},字符串:A∗A^*A∗,在A上的一个编码称为n元码
设 I=(S,P)\mathscr{I}=(S, P)I=(S,P) 为一个信源, CCC 为任一码. 称有序对 (C,f)(C, f)(C,f) 为一个编码规则, 如果 f:S→Cf: S \rightarrow Cf:S→C 为一个单射. 我们称 fff 为一个编码函数
在变长情形下,度量编码的好坏需要使用平均码长:
Avelen(C,f)=∑i=1np(si)len(f(si))\operatorname{Avelen}(C, f)=\sum_{i=1}^{n} p\left(s_{i}\right) \operatorname{len}\left(f\left(s_{i}\right)\right)Avelen(C,f)=∑i=1np(si)len(f(si))
唯一可译码:称码 CCC 为唯一可译码, 如果当 c1,⋯ ,ck,d1,⋯ ,djc_{1}, \cdots, c_{k}, d_{1}, \cdots, d_{j}c1,⋯,ck,d1,⋯,dj 为 CCC 中码字, 并且有c1⋯ck=d1⋯djc_{1} \cdots c_{k}=d_{1} \cdots d_{j}c1⋯ck=d1⋯dj则 k=jk=jk=j 且 ci=di,∀ic_{i}=\boldsymbol{d}_{i}, \forall ici=di,∀i.
前缀码:如果C中任意两个码都不互为前缀,则称为前缀码。特别的,前缀码是一种唯一可译码,而且即时可译
Kraft _McMillan 定理:
(1) 如果 CCC 为一个 rrr 元唯一可译码, 其码字长度分别为 l1,l2,⋯ ,lnl_{1}, l_{2}, \cdots, l_{n}l1,l2,⋯,ln, 则下列 Kraft\mathrm{Kraft}Kraft 不等式必成立:
∑k=1n1rlk⩽1
\sum_{k=1}^{n} \frac{1}{r^{l_{k}}} \leqslant 1
k=1∑nrlk1⩽1
(2) 如果自然数 l1,l2,⋯ ,lnl_{1}, l_{2}, \cdots, l_{n}l1,l2,⋯,ln 与 rrr 满足 Kraft\mathrm{Kraft}Kraft 不等式, 则必存在一个码字长度为 l1,l2,⋯ ,lnl_{1}, l_{2}, \cdots, l_{n}l1,l2,⋯,ln 的 rrr 元前缀码.
最优编码的构造:
编码的最优性度量:
对确定的概率分布 (p1,p2,⋯ ,pn)\left(p_{1}, p_{2}, \cdots, p_{n}\right)(p1,p2,⋯,pn), rrr 元前缀码 (c1,c2,⋯ ,cn)\left(c_{1}, c_{2}, \cdots, c_{n}\right)(c1,c2,⋯,cn) 称为最优编码, 如果Avelen (c1,c2,⋯ ,cn)=\left(c_{1}, c_{2}, \cdots, c_{n}\right)=(c1,c2,⋯,cn)= MinAvelen (p1⋅p2,⋯ ,pn)\left(p_{1} \cdot p_{2}, \cdots, p_{n}\right)(p1⋅p2,⋯,pn)
编码和r进熵的关系:
r进熵:Hr(p1,p2,⋯ ,pn)=∑i=1npilogr1piH_{r}\left(p_{1}, p_{2}, \cdots, p_{n}\right)=\sum_{i=1}^{n} p_{i} \log _{r} \frac{1}{p_{i}}Hr(p1,p2,⋯,pn)=∑i=1npilogrpi1
定理:设 C=(c1,c2,⋯ ,cn)C=\left(c_{1}, c_{2}, \cdots, c_{n}\right)C=(c1,c2,⋯,cn) 为概率分布 P=(p1,p2,⋯ ,pn)P=\left(p_{1}, p_{2}, \cdots, p_{n}\right)P=(p1,p2,⋯,pn) 下 的一个唯一可译码, 则Hr⩽AvelenH_{r} \leqslant \operatorname{Avelen}Hr⩽Avelen
等式成立的充要条件是: ∀i,len(ci)=logr1pi\forall i, \operatorname{len}\left(c_{i}\right)=\log _{r} \frac{1}{p_{i}}∀i,len(ci)=logrpi1.
无噪声编码定理:
Hr⩽ MinAvelen <Hr+1H_{r} \leqslant \text { MinAvelen }<H_{r}+1Hr⩽ MinAvelen <Hr+1
Huffman编码:
编码方法:假设编码符号集为A={a1,...,ar}A=\{a_1,...,a_r\}A={a1,...,ar},信源X={x1,...,xn;p1,...,pn}X=\{x_1,...,x_n;p_1,...,p_n\}X={x1,...,xn;p1,...,pn},则第一次合并n−2mod (r−1)+2n-2\mod (r-1)+2n−2mod(r−1)+2个编码,之后每次合成rrr个编码即可。每次合成都取当前概率值最少的集合,然后为其在前面添加符号集从前到后的若干个编码
性质:Huffman编码是一种最优编码
推论:Hr⩽Avglen(Huffman)<Hr+1H_{r} \leqslant Avglen(\text{Huffman})
<H_{r}+1Hr⩽Avglen(Huffman)<Hr+1
后面的均为二进制编码
Shannon编码:
对于信源:p1≥p2≥...≥pnp_1\geq p_2\geq... \geq p_np1≥p2≥...≥pn:
令 qk=∑i=1k−1piq_{k}=\sum_{i=1}^{k-1} p_{i}qk=∑i=1k−1pi. lk=⌈logpk⌉l_{k}= \lceil \log p_k \rceillk=⌈logpk⌉. 用 lkl_{k}lk 个 bit 来表示 qkq_{k}qk:将 qkq_{k}qk 按二进制小数展开到 lkl_{k}lk 位截断
性质:Hr⩽Avglen(Shannon)<Hr+1H_{r} \leqslant Avglen(\text{Shannon})
<H_{r}+1Hr⩽Avglen(Shannon)<Hr+1,但不是最优编码
Fano编码:
对于信源:p1≥p2≥...≥pnp_1\geq p_2\geq... \geq p_np1≥p2≥...≥pn:每次将每组概率尽可能分成等概率的两个连续组,并且分别赋予0/1,直到每个组都只剩下一个概率为止
性质:Avglen(Fano)≤Hr+2Avglen(\text{Fano})\leq H_{r}+2Avglen(Fano)≤Hr+2,不是最优编码
S-F-E编码:
对于信源:p1,p2,...,pnp_1, p_2,... ,p_np1,p2,...,pn:注意, 我们并没有对信源按概率大小进行排序. 记:
Fˉ(k)=∑i<kp(i)+12p(k),1⩽k⩽n,F(k)=∑i⩽kp(i),1⩽k⩽n
\begin{aligned}
&\bar{F}(k)=\sum_{i<k} p(i)+\frac{1}{2} p(k), \quad 1 \leqslant k \leqslant n, \\
&F(k)=\sum_{i \leqslant k} p(i), \quad 1 \leqslant k \leqslant n
\end{aligned}
Fˉ(k)=i<k∑p(i)+21p(k),1⩽k⩽n,F(k)=i⩽k∑p(i),1⩽k⩽n
为累积概率分布, Fˉ(k)<F(k)\bar{F}(k)<F(k)Fˉ(k)<F(k),二者均单调增加, 易见
Fˉ(k)⩽F(k)⩽Fˉ(k+1).
\bar{F}(k) \leqslant F(k) \leqslant \bar{F}(k+1) .
Fˉ(k)⩽F(k)⩽Fˉ(k+1).
lk=⌈logpk⌉+1l_{k}= \lceil \log p_k \rceil+1lk=⌈logpk⌉+1. 用 lkl_{k}lk 个 bit 来表示 Fˉk\bar{F}_{k}Fˉk,即可得到S-F-E编码
性质:Avglen(S-F-E)≤Hr+2Avglen(\text{S-F-E})\leq H_{r}+2Avglen(S-F-E)≤Hr+2,不是最优编码
离散平稳信源的编码:
信源{有记忆信源(输出信号序列间不独立)无记忆信源{简单信源(独立同分布序列)其它信源 \{ \begin{aligned}&有记忆信源(输出信号序列间不独立)\\
&无记忆信源 \{\begin{aligned} &简单信源(独立同分布序列)\\ &其它\end{aligned} \end{aligned}信源{有记忆信源(输出信号序列间不独立)无记忆信源{简单信源(独立同分布序列)其它
平稳信源:
对任意的 NNN, 连续N个信号的概率分布与起点无关, 即P(X1=xi1,⋯ ,XN=xiN)=P(XL+1=xi1,⋯ ,XL+N=xiN)P\left(X_{1}=x_{i_{1}}, \cdots,X_{N}=x_{i_{N}}\right)=P\left(X_{L+1}=x_{i_{1}}, \cdots,X_{L+N}=x_{i _N}\right)P(X1=xi1,⋯,XN=xiN)=P(XL+1=xi1,⋯,XL+N=xiN)
性质1:从任意时间起点出发,得到的序列性质相同
定义信号的平均熵为:HN(X)=1NH(X1,X2,⋯ ,XN)H_{N}(\boldsymbol{X})=\frac{1}{N} H\left(X_{1}, X_{2}, \cdots, X_{N}\right)HN(X)=N1H(X1,X2,⋯,XN)
性质2:
(1) H(XN∣X1,⋯ ,XN−1)H\left(X_{N} \mid X_{1}, \cdots, X_{N-1}\right)H(XN∣X1,⋯,XN−1) 关于N单调减少;
(2) ∀N,HN(X)⩾H(XN∣X1,⋯ ,XN−1)\forall N, H_{N}(\boldsymbol{X}) \geqslant H\left(X_{N} \mid X_{1}, \cdots, X_{N-1}\right)∀N,HN(X)⩾H(XN∣X1,⋯,XN−1);
(3) HN(X)H_{N}(\boldsymbol{X})HN(X) 关于N单调减少;
(4) limN→∞HN(X)=limN→∞H(XN∣X1,⋯ ,XN−1)\lim _{N \rightarrow \infty} H_{N}(\boldsymbol{X})=\lim _{N \rightarrow \infty} H\left(X_{N} \mid X_{1}, \cdots, X_{N-1}\right)limN→∞HN(X)=limN→∞H(XN∣X1,⋯,XN−1)
性质3:根据性质2,以下极限必定存在:
H∞(X)=limN→∞HN(X)H_{\infty}(\boldsymbol{X})=\lim _{N \rightarrow \infty} H_{N}(\boldsymbol{X})H∞(X)=limN→∞HN(X),H∞(X)H_{\infty}(\boldsymbol{X})H∞(X)称为信源X的熵率
冗余度 :logK−H∞(X)\log K-H_{\infty}(\boldsymbol{X})logK−H∞(X),
相对冗余度 :1−H∞(X)logK1-\frac{H_{\infty}(\boldsymbol{X})}{\log K}1−logKH∞(X),H(X)logK\frac{H(\boldsymbol{X})}{\log K}logKH(X)称为熵率.
性质4:对于离散平稳信源 (X1X2⋯XL;p(x))\left(X_{1} X_{2} \cdots X_{L} ; p(x)\right)(X1X2⋯XL;p(x)) 进行 DDD 元变长编码. ∀ε>0\forall \varepsilon>0∀ε>0, 则 ∃L(ε)\exists L(\varepsilon)∃L(ε), 使得当 L>L(ε)L>L(\varepsilon)L>L(ε) 时, 存在唯一可译码, 使得平均每个信源符号所需码字的平均长度满足:
H∞(X)logD⩽nˉ⩽H∞(X)logD+ε.
\frac{H_{\infty}(\boldsymbol{X})}{\log D} \leqslant \bar{n} \leqslant \frac{H_{\infty}(\boldsymbol{X})}{\log D}+\varepsilon .
logDH∞(X)⩽nˉ⩽logDH∞(X)+ε.
马尔可夫信源:
马尔可夫序列:P(Xn+1=xn+1∣Xn=xn,⋯ ,X1=x1)=P(Xn+1=xn+1∣Xn=xn)\begin{aligned}
P\left(X_{n+1}\right.&\left.=x_{n+1} \mid X_{n}=x_{n}, \cdots, X_{1}=x_{1}\right) \\
&=P\left(X_{n+1}=x_{n+1} \mid X_{n}=x_{n}\right)
\end{aligned}P(Xn+1=xn+1∣Xn=xn,⋯,X1=x1)=P(Xn+1=xn+1∣Xn=xn)
马尔可夫信源:符号集+状态集:每次发出符号后状态会改变。满足以下条件的信源称为马尔可夫信源:
(1)某一时刻信源符号的输出只与当前的信源状态有关, 而与之前的状态无关, 即P(xl=ak∣ul=sj,xl−1=ak,ul−1=si,⋯ )=P(xl=ak∣ul=sj)P\left(x_{l}=a_{k} \mid u_{l}=s_{j}, x_{l-1}=a_{k}, u_{l-1}=s_{i}, \cdots\right)=P\left(x_{l}=a_{k} \mid u_{l}=s_{j}\right)P(xl=ak∣ul=sj,xl−1=ak,ul−1=si,⋯)=P(xl=ak∣ul=sj)
(2) 信源状态只由当前输出符号和前一时刻信源状态唯一确定, 即
P(ul=si∣x1=ak,u1−1=sj)={10}P\left(u_{l}=s_{i} \mid x_{1}=a_{k}, u_{1-1}=s_{j}\right)=\left\{\begin{array}{l}
1 \\
0
\end{array}\right\}P(ul=si∣x1=ak,u1−1=sj)={10}
马尔可夫在状态转移矩阵P下的不变分布称为稳态分布。
在给定信源状态 S=jS=jS=j 之下的条件熵为H(X∣S=j)=−∑Kpj(ak)logpj(ak)H(\boldsymbol{X} \mid S=j)=-\sum^{K} p_{j}\left(a_{k}\right) \log p_{j}\left(a_{k}\right)H(X∣S=j)=−∑Kpj(ak)logpj(ak)
信源熵为:H=H(X∣S)=∑j=1jP(S=j)H(X∣S=j)H=H(\boldsymbol{X} \mid S)=\sum_{j=1}^{j} P(S=j) H(\boldsymbol{X} \mid S=j)H=H(X∣S)=∑j=1jP(S=j)H(X∣S=j)
性质1:马尔可夫信源的熵率:H∞(X)=H(X∣S)H_{\infty}(\boldsymbol{X})=H(\boldsymbol{X} \mid S)H∞(X)=H(X∣S)
性质2:马尔可夫信源的变长编码定理:当用 JJJ 个字母的码字母表对墒率为 H∞(X)H_{\infty}(\boldsymbol{X})H∞(X) 的离散马尔可夫信源进行变长编码时, 其平均码长 lˉ\bar{l}lˉ 满 足:
H∞(X)logJ⩽lˉ⩽H∞(X)logJ+1N,
\frac{H_{\infty}(\boldsymbol{X})}{\log J} \leqslant \bar{l} \leqslant \frac{H_{\infty}(\boldsymbol{X})}{\log J}+\frac{1}{N},
logJH∞(X)⩽lˉ⩽logJH∞(X)+N1,
其中 NNN 为信源字母分组的长度.
本文详细介绍了信息论的基础概念,包括熵、自信息、联合熵、条件熵和互信息,阐述了它们的性质和计算方法。此外,还探讨了离散无记忆信源的编码,如定长编码、变长编码,以及马尔可夫信源的熵率。这些理论在信息传输和数据压缩中起到关键作用。
731

被折叠的 条评论
为什么被折叠?



