信息科学基础期中复习笔记

原创已于 2022-04-14 13:37:14 修改 · 564 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#信息论 #信息 #复习笔记

于 2022-04-09 00:35:08 首次发布

课程复习资料专栏收录该内容

9 篇文章

订阅专栏

本文详细介绍了信息论的基础概念，包括熵、自信息、联合熵、条件熵和互信息，阐述了它们的性质和计算方法。此外，还探讨了离散无记忆信源的编码，如定长编码、变长编码，以及马尔可夫信源的熵率。这些理论在信息传输和数据压缩中起到关键作用。

教材：《信息论基础》（第三版）石峰，莫忠息，武汉大学出版社
第1-4章
为了复习之便，对教材顺序可能有所调整。

Chapter 1 概论

在这里插入图片描述
老三论：控制论，系统论，信息论
Shannon,1956：Shannon熵
自信息： $I(A)=−log⁡P(A)I(A)=-\log P(A)$ 事件的发生概率越小，产生的信息量越大
熵： $H=−∑ipilog⁡(pi)H=-\sum_{i} p_i\log (p_i)$

Chapter 2 信息与熵

离散信源： $(S, P)$ : 有限符号集 $S=\{x_1,...,x_n\}$ ，P为其上的一个概率分布，其中 $x_i$ 的概率为 $p_i$
自信息： $I(x_i)=-\log p_i$ ，其中底数可以任意取，但一般取为2，此时信息的单位为bit 意义：一个从{0,1}中等概率取值的随机变量的信息为1bit
熵： $H(S)=−∑ipilog⁡piH(S)=-\sum_i p_i\log p_i$ ，特别地，指定 $0 \cdot l o g 0 = 0$
熵函数的唯一性：满足以下三个直觉性质的熵函数唯一，形如 $H(S)=−∑ipilog⁡CpiH(S)=-\sum_i p_i\log_C p_i$

$H(p_1,...,p_n)$ 对所有分布有定义且连续
$H(1n,...,1n)<H(1n+1,...,1n+1)H(\frac{1}{n},...,\frac{1}{n})< H(\frac{1}{n+1},...,\frac{1}{n+1})$
$H(1n,...,1n)=H(b1n,...,bkn)+∑ikbinH(1bi,...,1bi)H(\frac{1}{n},...,\frac{1}{n})=H(\frac{b_1}{n},...,\frac{b_k}{n})+\sum_i^k \frac{b_i}{n}H(\frac{1}{b_i},...,\frac{1}{b_i})$

熵的性质：

$0≤H(S)≤log⁡n0\leq H(S)\leq \log n$ ，前者取等当且仅当 $p_k=1$ ，其余为0，后者取等当且仅当 $pi=1n,∀ip_i=\frac{1}{n},\forall i$
与 $x_1,,..,x_n$ 的顺序无关，仅与概率分布有关
特别的，如果一个离散随机变量X的分布和S相同，则X的熵定义同上，之后也不再和信源区分

联合熵： $H(X,Y)=−∑i,jp(xi,yj)log⁡p(xi,yj)H(X,Y)=-\sum_{i,j} p(x_i,y_j)\log p(x_i,y_j)$
显然，X和Y的联合熵就是随机向量(X,Y)的熵，同理可以定义多元联合熵
性质4： $H(X,Y)≤H(X)+H(Y)H(X,Y)\leq H(X)+H(Y)$ ，取等当且仅当X和Y独立(用条件熵比较好证)，同理 $H(X1,...,Xn)≤H(X1)+...+H(Xn)H(X_1,...,X_n)\leq H(X_1)+...+H(X_n)$
条件熵： $H(X∣Y=y)=−∑ip(xi∣y)log⁡p(xi∣y)H(X|Y=y)=-\sum_i p(x_i|y)\log p(x_i|y)$
$H(X∣Y)=∑jp(Y=yj)H(X∣Y=yj)=−∑i,jp(xi,yj)log⁡p(xi∣yj)H(X|Y)=\sum_jp(Y=y_j)H(X|Y=y_j)=-\sum_{i,j} p(x_i,y_j)\log p(x_i|y_j)$
由于 $p(x_i|y_j)=p(x_i,y_j)/p(y_j)$ ，可得以下式子：
$H (X ∣ Y) = H (X, Y) - H (Y)$
推论：性质5： $H(X∣Y)≤H(X,Y),H(Y)≤H(X,Y)H(X|Y)\leq H(X,Y),H(Y)\leq H(X,Y)$
性质6（条件熵减）： $H(X∣Y)≤H(X)H(X|Y)\leq H(X)$ ，取等当且仅当X和Y独立
推论：性质4
熵函数的性质：
性质7： $∑ipilog⁡1pi≤∑ipilog⁡1qi\sum_i p_i \log \frac{1}{p_i}\leq \sum_i p_i \log \frac{1}{q_i}$ 对任意分布p和子分布q成立（ $∑iqi≤1\sum_i q_i\leq1$ ）
性质8：可加性（分组求熵），对称性，扩展性（增加一个取值 $ϵ\epsilon$ 的随机变量没有影响）
（下）凸函数：形如 $y=x^2$ ；反之为凹（上凸）函数
性质9：在n元概率分布定义的凸空间K上，熵函数 $H(p_1,...,p_n)$ 为凹函数
微分熵：
对于连续型随机变量X，定义其微分熵 $HC(X)=−∫−∞∞p(x)ln⁡p(x)dxH_C(X)=-\int_{-\infty}^{\infty} p(x)\ln p(x)dx$ （底数为自然对数）
对于常见的分布：
$H_C(U[a,b])=\ln (b-a)$ , $HC(N[μ,σ2])=12ln⁡(2πeσ2)H_C(N[\mu,\sigma^2])=\frac{1}{2} \ln (2\pi e\sigma^2)$
对于一般的分布X：熵功率 $σˉ2=12πee2HC(X)\bar{\sigma}^2=\frac{1}{2\pi e} e^{2H_C(X)}$ ，特别的，对于正态分布，熵功率和方差相等
性质10：微分熵和熵最大的区别为其取值范围为 $(−∞,∞)(-\infty,\infty)$
其它微分熵： $H_C(X,Y),H_C(X|Y)$ ，保持了以下关系：
性质11： $H_C(X|Y)+H_C(Y)=H_C(X,Y)$
性质12： $HC(X∣Y)≤HC(X)H_C(X|Y)\leq H_C(X)$
性质13： $HC(X)+HC(Y)≤HC(X,Y)H_C(X)+H_C(Y)\leq H_C(X,Y)$
附加约束下的微分熵界限：
性质14：若X在(-M,M)上取值，则 $HC(X)≤ln⁡2MH_C(X)\leq \ln 2M$ ，取等当且仅当X为均匀分布
性质15：若X的方差为 $σ2\sigma^2$ ，则 $HC(X)≤ln⁡2πeσH_C(X)\leq \ln \sqrt{2 \pi e}\sigma$ ，取等当且仅当X为正态分布
注：求一个随机变量X的函数g(X)的密度函数的方法：

直接求g(X)的分布函数 $F(a)=P\{g(X)<a\}$ ，再对F求导得到密度函数
（密度变换公式）设随机变量 $ξ\xi$ 的密度函数为 $pξ(x),a<x<bp_{\xi}(x), a<x<b$ . 如果可以把 $(a, b)$ 分割为一些 (有限个或可列个) 互不重叠的子区间的和 $b)=\bigcup_{j} I_{j}$ , 使得函数 $\in(a, b)$ 在每个子区间上有唯一的反函数 $h_{j}(u)$ , 并且 $hj′(u)h_{j}^{\prime}(u)$ 存在连续, 则 $η=g(ξ)\eta=g(\xi)$ 是连续型随机变量, 其密度函数为:
$p_{\eta}(x)=\sum_{j} p_{\xi}\left(h_{j}(x)\right)\left|h_{j}^{\prime}(x)\right|$
例如： $X∼U[a,b]X\sim U[a,b]$ ，求 $X^2$ 的密度函数。
解：1： $F(k)=P{X2<k}=P{−k<X<k}=1b−a(min⁡{k,b}−max⁡{−k,a})(k>0)F(k)=P\{X^2<k\}=P\{-\sqrt{k}<X<\sqrt{k}\}=\frac{1}{b-a}({\min\{\sqrt{k},b\}}-\max\{-\sqrt{k},a\})(k>0)$ ，然后分类对k求导即可
2：由于需要 $X^2$ 单调，因此需要将[a,b]分割为大于0和小于0的两部分：
在大于0的部分：g的反函数是 $x\sqrt{x}$ ，导数存在连续，则 $pg(X)(x)=pX(x)×12x−12p_{g(X)}(x)= p_X(\sqrt{x})\times \frac{1}{2}x^{-\frac{1}{2}}$ ，小于0的部分同理，加上讨论和判断 $x\sqrt{x}$ 的取值区间即可。

Chapter 3 互信息

互信息：事件 $b_j$ 对于事件 $a_i$ 的互信息 $I(ai;bj)=log⁡p(ai,bj)p(ai)p(bj)=log⁡p(ai∣bj)p(ai)=I(bj;ai)I(a_i;b_j)=\log \frac{p(a_i,b_j)}{p(a_i)p(b_j)}=\log \frac{p(a_i|b_j)}{p(a_i)}=I(b_j;a_i)$ ，独立时=0
特别的， $I(a_i;a_i)=I(a_i)$ (自信息)
条件自信息： $I(ai∣bj)=log⁡p(bj)p(ai,bj)I(a_i|b_j)=\log \frac{p(b_j)}{p(a_i,b_j)}$
联合自信息： $I(ai,bj)=log⁡1p(ai,bj)I(a_i,b_j)=\log \frac{1}{p(a_i,b_j)}$
记忆方法： $I(Y)=log⁡1p(Y)I(Y)=\log{\frac{1}{p(Y)}}$
性质1： $I(a_i;b_j)+I(a_i,b_j)=I(a_i)+I(b_j)$
条件互信息：在条件 $x_1,...,x_{n-2}$ 下的 $x_N$ 关于 $x_{N-1}$ 的条件互信息： $,xN−2)I\left(x_{N} ; x_{N-1} \mid x_{1}, \cdots, x_{N-2}\right)=\log \frac{p\left(x_{N} \mid x_{1}, \cdots, x_{N-2}, x_{N-1}\right)}{p\left(x_{N} \mid x_{1}, \cdots, x_{N-2}\right)}$
联合事件和事件之间的互信息：
$I(ai;bj,ck)=log⁡p(ai∣bj,ck)p(ai)I\left(a_{i} ; b_{j}, c_{k}\right)=\log \frac{p\left(a_{i} \mid b_{j}, c_{k}\right)}{p\left(a_{i}\right)}$
性质2： $I(ai;bj,ck)=I(ai;bj)+I(ai;ck∣bj)==I(bj,ck;ai)=I(bj;ai)+I(ck;ai∣bj)=I(ai;bj)+I(ck;ai∣bj).I\left(a_{i} ; b_{j}, c_{k}\right)=I\left(a_{i} ; b_{j}\right)+I\left(a_{i} ; c_{k} \mid b_{j}\right)=\begin{aligned} &=I\left(b_{j}, c_{k} ; a_{i}\right) \\ &=I\left(b_{j} ; a_{i}\right)+I\left(c_{k} ; a_{i} \mid b_{j}\right) \\ &=I\left(a_{i} ; b_{j}\right)+I\left(c_{k} ; a_{i} \mid b_{j}\right) . \end{aligned}$
注意：符号“,”,“;”,“|”的运算次序为 “,”,“;”和“|”.
平均互信息：
定义为各个事件的互信息的数学期望
$Y)=E\left(I\left(a_{i} ; b_{j}\right)\right)=\sum_{i} \sum_{j} p\left(a_{i}, b_{j}\right) \log \frac{p\left(a_{i}, b_{j}\right)}{p\left(a_{i}\right) p\left(b_{j}\right)}$
性质3： $\mid Y)\\=H(X)+H(Y)-H(X, Y) \geq0$
在这里插入图片描述
同理，有：
平均联合互信息： $I(X;YZ)=H(X)−H(X∣YZ)=H(YZ)−H(YZ∣X)≥0\begin{aligned} I(X ; Y Z) &=H(X)-H(X \mid Y Z) \\ &=H(Y Z)-H(Y Z \mid X) \end{aligned}\geq0$
平均条件互信息： $\mid Z)=\sum_{k} \sum_{j} \sum_{l} p\left(a_{k}, b_{j}, c_{l}\right) \log \frac{p\left(a_{k}, b_{j} \mid c_{l}\right)}{p\left(a_{k} \mid c_{l}\right) p\left(b_{j} \mid c_{l}\right)}\geq0$
性质4： $I(X;Y∣Z)=H(X∣Z)−H(X∣YZ),I(X;Y∣Z)=H(Y∣Z)−H(Y∣XZ).I(X;Y∣Z)=H(X∣Z)+H(Y∣Z)−H(XY∣Z).I(X;Y∣Z)=H(XZ)−H(Z)−H(XYZ)+H(Z)+H(YZ)−H(Z)=H(XZ)+H(YZ)−H(XYZ)−H(Z).\begin{aligned} I(X ; Y \mid Z)=& H(X \mid Z)-H(X \mid Y Z), \\ I(X ; Y \mid Z)=& H(Y \mid Z)-H(Y \mid X Z) . \\ I(X ; Y \mid Z)=& H(X \mid Z)+H(Y \mid Z)-H(X Y \mid Z) . \\ I(X ; Y \mid Z)=& H(X Z)-H(Z)-H(X Y Z)+H(Z) \\ &+H(Y Z)-H(Z) \\ =& H(X Z)+H(Y Z)-H(X Y Z)-H(Z) . \end{aligned}$
多元互信息：
$Z)=\sum_{k} \sum_{j} \sum_{l} p\left(a_{k}, b_{j}, c_{l}\right) \log \frac{p\left(a_{k}, b_{j}\right) p\left(b_{j}, c_{l}\right) p\left(a_{k}, c_{l}\right)}{p\left(a_{k}\right) p\left(b_{j}\right) p\left(c_{l}\right) p\left(a_{k}, b_{j}, c_{l}\right)}$ ，不一定大于等于0
性质5： $\mid Z)$ ，由于X,Y,Z可以轮换，因此可以得到若干个条件互信息的关系式
互信息函数的性质：
可以将X与Y的互信息 $I (X; Y)$ 看作关于X的概率分布P和Y关于X的条件分布矩阵Q的函数 $I (P, Q)$ ，则：
性质6： $I (P, Q)$ 是关于P的凹（上凸）函数
性质7： $I (P, Q)$ 是关于Q的凸（下凸）函数
同理，可以定义连续随机变量的互信息：
$dy.\begin{aligned} I(X ; Y) &=E_{X Y}(I(x ; y)) \\ &=\iint_{X Y}(x, y) \log \frac{p_{X \mid Y}(x \mid y)}{p_{X}(x)} \mathrm{d} x \mathrm{~d} y \\ &=\iint_{X Y}(x, y) \log \frac{p_{X Y}(x, y)}{p_{X}(x) p_{Y}(y)} \mathrm{d} x \mathrm{~d} y . \end{aligned}$
$\mid Z)=\iiint_{X Y Z}(x, y, z) \log \frac{p_{X Y \mid Z}(x, y \mid z)}{p_{X \mid Z}(x \mid z) p_{Y \mid Z}(y \mid z)} \mathrm{d} x \mathrm{~d} y \mathrm{~d} z$
$Z)=\iiint_{X Y Z}(x, y, z) \log \frac{p_{X Y Z}(x, y, z)}{p_{X Y}(x, y) p_{Z}(z)} \mathrm{d} x \mathrm{~d} y \mathrm{~d} z$
性质8： $I(X;Y)⩾0;I(X;Y)=I(Y;X),I(X;Y∣Z)=I(Y;X∣Z)I(XY;Z)=I(X;Z)+I(Y;Z∣X)=I(Y;Z)+I(X;Z∣Y)\begin{aligned} &I(X ; Y) \geqslant 0 ; \\ &I(X ; Y)=I(Y ; X), I(X ; Y \mid Z)=I(Y ; X \mid Z) \\ &I(X Y ; Z)=I(X ; Z)+I(Y ; Z \mid X)=I(Y ; Z)+I(X ; Z \mid Y) \end{aligned}$

Chapter 4 信源与信源编码简介

信源：信息的来源
在这里插入图片描述
离散无记忆信源的定长编码：
无记忆信源的输出是一个长为N的iid序列 $x_1,...,x_N)$ ， $p(x)=∏i=1Np(xi)p(x)=\prod_{i=1}^{N} p\left(x_{i}\right)$ ，自信息为 $I(x)=−log⁡p(x)=∑i=1N(−log⁡p(xi))=∑i=1NI(xi)I(x)=-\log p(x)=\sum_{i=1}^{N}\left(-\log p\left(x_{i}\right)\right)=\sum_{i=1}^{N} I\left(x_{i}\right)$ ，根据大数定律，平均自信息 $IN(x)≜I(x)N=1N∑i=1NI(xi)→H(X)=−∑i=1Kp(ai)log⁡p(ai)=∑i=1Kp(ai)I(ai)I_{N}(x) \triangleq \frac{I(x)}{N}=\frac{1}{N} \sum_{i=1}^{N} I\left(x_{i}\right) \rightarrow H(X)=-\sum_{i=1}^{K} p\left(a_{i}\right) \log p\left(a_{i}\right)=\sum_{i=1}^{K} p\left(a_{i}\right) I\left(a_{i}\right)$
从而，无记忆信源的输出相当集中于平均信息量接近X的熵的小部分序列之中。从而，称集合
$TX(N,ε)={x=x1⋯xN∣H(X)−ε⩽IN(x)⩽H(X)+ε}T_{X}(N, \varepsilon)=\left\{\boldsymbol{x}=x_{1} \cdots_{x_{N}} \mid H(X)-\varepsilon \leqslant I_{N}(\boldsymbol{x}) \leqslant H(X)+\boldsymbol{\varepsilon}\right\}$
为输出长度为 $N$ 的 $ε\varepsilon$ - 典型序列集合，在N趋于无穷时，典型序列的出现概率趋于1.
推论：性质1：若 $x=x1x2⋯xN∈TX(N,ε)x=x_{1} x_{2} \cdots x_{N} \in T_{X}(N, \varepsilon)$ , 则
$2−N(H(X)+ϵ)⩽p(x)⩽2−N(H(X)−ε)2^{-N(H(X)+\epsilon)} \leqslant p(\boldsymbol{x}) \leqslant 2^{-N(H(X)-\varepsilon)}$ ，即 $\approx 2^{-N H(x)} .$
推论：性质2：当 $N$ 足够大时, 典型序列数目 $∣TX(N,ε)∣\left|T_{X}(N, \varepsilon)\right|$ 满足
$(1-\varepsilon) \cdot 2^{N(H(X)-\varepsilon)} \leqslant\left|T_{X}(N, \varepsilon)\right| \leqslant 2^{N(H(X)+\varepsilon)} \text {, }$
记忆方法：由于每次取得典型序列的概率趋于1，因此典型序列的数量大约是每个典型序列出现概率的倒数
由此，得到关于无记忆信源的编码定理：
定长编码定理：设离散无记忆信源 $(S, X)$ , 其熵为 $H (X)$ , 被分成长为 $N$ 的源字母组, 并用长为 $M$ 的码字母组进行表示, 其中, 码字母集 $,bJ}B=\left\{b_{1}, b_{2}, \cdots, b_{J}\right\}$ . 则对任给的 $ε>0\varepsilon>0$ 及 $δ>0\delta>0$ , 只要 $N$ 足够大, 且满足不等式
$\frac{M}{N} \log J>H(X)+\delta,$
则源字母组没有自己特定码字的概率 $p_{e}$ 可以小于 $ε\varepsilon$ .
定义： $R=MNlog⁡JR=\frac{M}{N} \log J$ 为编码速率或称码率， $η=H(X)R\eta=\frac{H(X)}{R}$ 称为编码效率，通常小于1

离散无记忆信源的变长编码：
字母表：有限集 $A=\{a_1,...,a_n\}$ ，字符串： $A^*$ ，在A上的一个编码称为n元码
设 $I=(S,P)\mathscr{I}=(S, P)$ 为一个信源, $C$ 为任一码. 称有序对 $(C, f)$ 为一个编码规则, 如果 $\rightarrow C$ 为一个单射. 我们称 $f$ 为一个编码函数
在变长情形下，度量编码的好坏需要使用平均码长：
$Avelen⁡(C,f)=∑i=1np(si)len⁡(f(si))\operatorname{Avelen}(C, f)=\sum_{i=1}^{n} p\left(s_{i}\right) \operatorname{len}\left(f\left(s_{i}\right)\right)$
唯一可译码：称码 $C$ 为唯一可译码, 如果当 $,djc_{1}, \cdots, c_{k}, d_{1}, \cdots, d_{j}$ 为 $C$ 中码字, 并且有 $c1⋯ck=d1⋯djc_{1} \cdots c_{k}=d_{1} \cdots d_{j}$ 则 $k = j$ 且 $ci=di,∀ic_{i}=\boldsymbol{d}_{i}, \forall i$ .
前缀码：如果C中任意两个码都不互为前缀，则称为前缀码。特别的，前缀码是一种唯一可译码，而且即时可译
Kraft _McMillan 定理：
(1) 如果 $C$ 为一个 $r$ 元唯一可译码, 其码字长度分别为 $,lnl_{1}, l_{2}, \cdots, l_{n}$ , 则下列 $Kraft\mathrm{Kraft}$ 不等式必成立:
$\sum_{k=1}^{n} \frac{1}{r^{l_{k}}} \leqslant 1$
(2) 如果自然数 $,lnl_{1}, l_{2}, \cdots, l_{n}$ 与 $r$ 满足 $Kraft\mathrm{Kraft}$ 不等式, 则必存在一个码字长度为 $,lnl_{1}, l_{2}, \cdots, l_{n}$ 的 $r$ 元前缀码.
最优编码的构造：
编码的最优性度量：
对确定的概率分布 $,pn)\left(p_{1}, p_{2}, \cdots, p_{n}\right)$ , $r$ 元前缀码 $,cn)\left(c_{1}, c_{2}, \cdots, c_{n}\right)$ 称为最优编码, 如果Avelen $,cn)=\left(c_{1}, c_{2}, \cdots, c_{n}\right)=$ MinAvelen $,pn)\left(p_{1} \cdot p_{2}, \cdots, p_{n}\right)$
编码和r进熵的关系：
r进熵： $,pn)=∑i=1npilog⁡r1piH_{r}\left(p_{1}, p_{2}, \cdots, p_{n}\right)=\sum_{i=1}^{n} p_{i} \log _{r} \frac{1}{p_{i}}$
定理：设 $,cn)C=\left(c_{1}, c_{2}, \cdots, c_{n}\right)$ 为概率分布 $,pn)P=\left(p_{1}, p_{2}, \cdots, p_{n}\right)$ 下的一个唯一可译码, 则 $Hr⩽Avelen⁡H_{r} \leqslant \operatorname{Avelen}$
等式成立的充要条件是: $∀i,len⁡(ci)=log⁡r1pi\forall i, \operatorname{len}\left(c_{i}\right)=\log _{r} \frac{1}{p_{i}}$ .
无噪声编码定理：
$<Hr+1H_{r} \leqslant \text { MinAvelen }<H_{r}+1$
Huffman编码：
编码方法：假设编码符号集为 $A=\{a_1,...,a_r\}$ ，信源 $X=\{x_1,...,x_n;p_1,...,p_n\}$ ，则第一次合并 $(r−1)+2n-2\mod (r-1)+2$ 个编码，之后每次合成 $r$ 个编码即可。每次合成都取当前概率值最少的集合，然后为其在前面添加符号集从前到后的若干个编码
性质：Huffman编码是一种最优编码
推论： $Hr⩽Avglen(Huffman)<Hr+1H_{r} \leqslant Avglen(\text{Huffman}) <H_{r}+1$
后面的均为二进制编码
Shannon编码：
对于信源： $p1≥p2≥...≥pnp_1\geq p_2\geq... \geq p_n$ :
令 $qk=∑i=1k−1piq_{k}=\sum_{i=1}^{k-1} p_{i}$ . $lk=⌈log⁡pk⌉l_{k}= \lceil \log p_k \rceil$ . 用 $l_{k}$ 个 bit 来表示 $q_{k}$ ：将 $q_{k}$ 按二进制小数展开到 $l_{k}$ 位截断
性质： $Hr⩽Avglen(Shannon)<Hr+1H_{r} \leqslant Avglen(\text{Shannon}) <H_{r}+1$ ，但不是最优编码
Fano编码：
对于信源： $p1≥p2≥...≥pnp_1\geq p_2\geq... \geq p_n$ ：每次将每组概率尽可能分成等概率的两个连续组，并且分别赋予0/1，直到每个组都只剩下一个概率为止
性质： $Avglen(Fano)≤Hr+2Avglen(\text{Fano})\leq H_{r}+2$ ，不是最优编码
S-F-E编码：
对于信源： $p_1, p_2,... ,p_n$ :注意, 我们并没有对信源按概率大小进行排序. 记：
$\begin{aligned} &\bar{F}(k)=\sum_{i<k} p(i)+\frac{1}{2} p(k), \quad 1 \leqslant k \leqslant n, \\ &F(k)=\sum_{i \leqslant k} p(i), \quad 1 \leqslant k \leqslant n \end{aligned}$
为累积概率分布, $Fˉ(k)<F(k)\bar{F}(k)<F(k)$ ,二者均单调增加, 易见
$\bar{F}(k) \leqslant F(k) \leqslant \bar{F}(k+1) .$
$lk=⌈log⁡pk⌉+1l_{k}= \lceil \log p_k \rceil+1$ . 用 $l_{k}$ 个 bit 来表示 $Fˉk\bar{F}_{k}$ ，即可得到S-F-E编码
性质： $Avglen(S-F-E)≤Hr+2Avglen(\text{S-F-E})\leq H_{r}+2$ ，不是最优编码
离散平稳信源的编码：
$\{ \begin{aligned}&有记忆信源（输出信号序列间不独立）\\ &无记忆信源 \{\begin{aligned} &简单信源（独立同分布序列）\\ &其它\end{aligned} \end{aligned}$
平稳信源：
对任意的 $N$ , 连续N个信号的概率分布与起点无关, 即 $,XL+N=xiN)P\left(X_{1}=x_{i_{1}}, \cdots,X_{N}=x_{i_{N}}\right)=P\left(X_{L+1}=x_{i_{1}}, \cdots,X_{L+N}=x_{i _N}\right)$
性质1：从任意时间起点出发，得到的序列性质相同
定义信号的平均熵为： $,XN)H_{N}(\boldsymbol{X})=\frac{1}{N} H\left(X_{1}, X_{2}, \cdots, X_{N}\right)$
性质2：
(1) $,XN−1)H\left(X_{N} \mid X_{1}, \cdots, X_{N-1}\right)$ 关于N单调减少;
(2) $,XN−1)\forall N, H_{N}(\boldsymbol{X}) \geqslant H\left(X_{N} \mid X_{1}, \cdots, X_{N-1}\right)$ ;
(3) $HN(X)H_{N}(\boldsymbol{X})$ 关于N单调减少;
(4) $,XN−1)\lim _{N \rightarrow \infty} H_{N}(\boldsymbol{X})=\lim _{N \rightarrow \infty} H\left(X_{N} \mid X_{1}, \cdots, X_{N-1}\right)$
性质3：根据性质2，以下极限必定存在：
$H∞(X)=lim⁡N→∞HN(X)H_{\infty}(\boldsymbol{X})=\lim _{N \rightarrow \infty} H_{N}(\boldsymbol{X})$ ， $H∞(X)H_{\infty}(\boldsymbol{X})$ 称为信源X的熵率
冗余度： $log⁡K−H∞(X)\log K-H_{\infty}(\boldsymbol{X})$ ,
相对冗余度： $1−H∞(X)log⁡K1-\frac{H_{\infty}(\boldsymbol{X})}{\log K}$ ， $H(X)log⁡K\frac{H(\boldsymbol{X})}{\log K}$ 称为熵率.
性质4：对于离散平稳信源 $(X1X2⋯XL;p(x))\left(X_{1} X_{2} \cdots X_{L} ; p(x)\right)$ 进行 $D$ 元变长编码. $∀ε>0\forall \varepsilon>0$ , 则 $∃L(ε)\exists L(\varepsilon)$ , 使得当 $L>L(ε)L>L(\varepsilon)$ 时, 存在唯一可译码, 使得平均每个信源符号所需码字的平均长度满足：
$\frac{H_{\infty}(\boldsymbol{X})}{\log D} \leqslant \bar{n} \leqslant \frac{H_{\infty}(\boldsymbol{X})}{\log D}+\varepsilon .$
马尔可夫信源：
马尔可夫序列： $,X1=x1)=P(Xn+1=xn+1∣Xn=xn)\begin{aligned} P\left(X_{n+1}\right.&\left.=x_{n+1} \mid X_{n}=x_{n}, \cdots, X_{1}=x_{1}\right) \\ &=P\left(X_{n+1}=x_{n+1} \mid X_{n}=x_{n}\right) \end{aligned}$
马尔可夫信源：符号集+状态集：每次发出符号后状态会改变。满足以下条件的信源称为马尔可夫信源：
（1）某一时刻信源符号的输出只与当前的信源状态有关, 而与之前的状态无关, 即 $)=P(xl=ak∣ul=sj)P\left(x_{l}=a_{k} \mid u_{l}=s_{j}, x_{l-1}=a_{k}, u_{l-1}=s_{i}, \cdots\right)=P\left(x_{l}=a_{k} \mid u_{l}=s_{j}\right)$
(2) 信源状态只由当前输出符号和前一时刻信源状态唯一确定, 即
$P(ul=si∣x1=ak,u1−1=sj)={10}P\left(u_{l}=s_{i} \mid x_{1}=a_{k}, u_{1-1}=s_{j}\right)=\left\{\begin{array}{l} 1 \\ 0 \end{array}\right\}$
马尔可夫在状态转移矩阵P下的不变分布称为稳态分布。
在给定信源状态 $S = j$ 之下的条件熵为 $H(X∣S=j)=−∑Kpj(ak)log⁡pj(ak)H(\boldsymbol{X} \mid S=j)=-\sum^{K} p_{j}\left(a_{k}\right) \log p_{j}\left(a_{k}\right)$
信源熵为： $H=H(X∣S)=∑j=1jP(S=j)H(X∣S=j)H=H(\boldsymbol{X} \mid S)=\sum_{j=1}^{j} P(S=j) H(\boldsymbol{X} \mid S=j)$
性质1：马尔可夫信源的熵率： $H∞(X)=H(X∣S)H_{\infty}(\boldsymbol{X})=H(\boldsymbol{X} \mid S)$
性质2：马尔可夫信源的变长编码定理：当用 $J$ 个字母的码字母表对墒率为 $H∞(X)H_{\infty}(\boldsymbol{X})$ 的离散马尔可夫信源进行变长编码时, 其平均码长 $lˉ\bar{l}$ 满足:
$\frac{H_{\infty}(\boldsymbol{X})}{\log J} \leqslant \bar{l} \leqslant \frac{H_{\infty}(\boldsymbol{X})}{\log J}+\frac{1}{N},$
其中 $N$ 为信源字母分组的长度.