信息论基础
每获得一部分信息就消除一部分不确定性,从这个意义上来说,信息是对不确定性的消除。概率论中概率就可以描述随机事件的不确定性,因此,信息一定是一个概率的函数。
信息的定义
香农给出的信息的定义:事物运动状态或存在方式不确定性的描述。
使用概率来度量不确定性的大小,则不确定性大小 f(p(x))f(p(x))f(p(x)) (p(x)p(x)p(x) 表示事件发生的概率)应该满足以下 3 个条件:
- f(1)=0f(1) = 0f(1)=0。必然事件的不确定性为 0。
- f(p(x))f(p(x))f(p(x)) 是单调递减函数。概率越大,不确定性越小。
- 独立可加性。f(p(x)p(y))=f(p(x))+f(p(y))f(p(x)p(y)) = f(p(x)) + f(p(y))f(p(x)p(y))=f(p(x))+f(p(y))
概率的倒数取对数即可满足以上条件,这就是香农的自信息量的定义:
I(xi)=log1p(xi) I(x_i) = log{\frac{1}{p(x_i)}} I(xi)=logp(xi)1
p(xi){p(x_i)}p(xi) 表示信源选择符号 xix_ixi 作为发送消息的概率。以 2 为底时,单位为 bit。以 eee 为底时,单位为 nat。以 10 为底时,单位为 Hart。
那么针对一个系统而言,取各随机事件自信息的统计平均来代表其总体信息量。离散随机变量 XXX 的信息熵 H(X)H(X)H(X) 定义为:
H(X)=−∑x∈Xp(x)logp(x)
H(X) = -\sum_{x \in X}{p(x) \log p(x)}
H(X)=−x∈X∑p(x)logp(x)
将其推广到多个随机变量,则一对离散随机变量 (X,Y)(X,Y)(X,Y) 的联合熵定义为:
H(X,Y)=−∑x∈X∑y∈Yp(x,y)logp(x,y)
H(X,Y) = - \sum_{x \in X}\sum_{y \in Y}{p(x,y)\log{p(x,y)}}
H(X,Y)=−x∈X∑y∈Y∑p(x,y)logp(x,y)
并且 H(X,Y)≤H(X)+H(Y)H(X,Y) \le H(X) + H(Y)H(X,Y)≤H(X)+H(Y),当 XXX 与 YYY 独立时等号成立。当 XXX 与 YYY 相关时,观察 XXX 就可以消除 YYY 的一部分不确定性。
离散随机变量 XXX 与 YYY 的互信息 I(X;Y)I(X;Y)I(X;Y) 定义为:
I(X;Y)=H(X)−H(X∣Y)
I(X;Y) = H(X) - H(X|Y)
I(X;Y)=H(X)−H(X∣Y)
可以理解为:已知 YYY,对于 XXX 的不确定性减少程度。也可以扩展成:
I(X;Y)=H(X)+H(Y)−H(X,Y)=∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y)
I(X;Y) = H(X) + H(Y) - H(X,Y) \\
= \sum_{x \in X}\sum_{y \in Y}{p(x,y)\log{\frac{p(x,y)}{p(x)p(y)}}}
I(X;Y)=H(X)+H(Y)−H(X,Y)=x∈X∑y∈Y∑p(x,y)logp(x)p(y)p(x,y)
当 XXX 与 YYY 独立时,I(X;Y)=0I(X;Y) = 0I(X;Y)=0;当 XXX 与 YYY 一一映射时,I(X;Y)=H(X)=H(Y)I(X;Y) = H(X) = H(Y)I(X;Y)=H(X)=H(Y)。
互信息的基本性质:
- 对称性:I(X;Y)=I(Y;X)I(X;Y) = I(Y;X)I(X;Y)=I(Y;X)
- 非负性:I(X;Y)≥0I(X;Y) \ge 0I(X;Y)≥0
- 极值性:I(X;Y)≤min(H(X),H(Y))I(X;Y) \le min(H(X),H(Y))I(X;Y)≤min(H(X),H(Y))
- 可加性:I(X1,X2⋯Xn;Y)=∑i=1nI(Ii;Y)I(X_1,X_2 \cdots X_n;Y) = \sum_{i=1}^{n}I(I_i;Y)I(X1,X2⋯Xn;Y)=∑i=1nI(Ii;Y)
率失真理论的基本概念
失真函数在输入输出联合空间中取统计平均:
D=∑xi,x^jp(xi)q(x^j∣xi)d(xi,x^j)
D = \sum_{x_i,\hat{x}_j}p(x_i)q(\hat{x}_j|x_i)d(x_i,\hat{x}_j)
D=xi,x^j∑p(xi)q(x^j∣xi)d(xi,x^j)
表示给定信源分布和转移概率分布时,信道传输失真总体的平均度量。
针对信源 XXX 和失真度量 d(x,x^)d(x,\hat{x})d(x,x^),信息的率失真函数 R(D)R(D)R(D) 定义为:
R(D)=min∑x,x^p(x)q(x^∣x)d(x,x^)≤DI(X;X^)
R(D) = \mathop{min}\limits_{\sum_{x,\hat{x}} p(x) q(\hat{x}|x) d(x,\hat{x}) \le D}I(X;\hat{X})
R(D)=∑x,x^p(x)q(x^∣x)d(x,x^)≤DminI(X;X^)
在失真 DDD 的限制下,最小化输入输出的互信息。
高斯信源的率失真函数
在均方失真度量下,高斯信源的率失真函数是:
R(D)={12logσ2D,0≤D≤σ20, D>σ2
R(D)=\left\{
\begin{aligned}
\frac{1}{2} \log{\frac{\sigma^2}{D}} , 0 \le D \le \sigma^2\\
0 ,\ \ \ \ \ \ \ \ \ \ \ \ D > \sigma^2
\end{aligned}
\right.
R(D)=⎩⎪⎨⎪⎧21logDσ2,0≤D≤σ20, D>σ2
以下是证明过程:
假设一个随机变量 XXX 服从高斯分布,则其概率密度函数为:
f(x)=12πσexp(−(x−μ)22σ2) f(x) = \frac{1}{\sqrt{2\pi}\sigma} \exp({-\frac{(x-\mu)^2}{2\sigma^2}}) f(x)=2πσ1exp(−2σ2(x−μ)2)
对于一个连续的随机变量,其微分熵为:
h(X)=−∫−∞+∞p(x)logp(x)dx h(X) = -\int_{-\infty}^{+\infin} p(x)\log{p(x)} dx h(X)=−∫−∞+∞p(x)logp(x)dx
则:XXX 的微分熵为:
h(X)=−∫−∞+∞p(x)log12πσexp(−(x−μ)22σ2)dx=−∫−∞+∞p(x)log12πσdx−∫−∞+∞p(x)logexp(−(x−μ)22σ2)dx=−∫−∞+∞p(x)log12πσdx+loge∫−∞+∞p(x)(x−μ)22σ2dx=−log12πσ2πσ∫−∞+∞2σexp(−((x−μ)2σ)2)d(x−μ2σ)+loge2πσ∫−∞+∞exp(−(x−μ)22σ2)(x−μ)22σ2dx=log(2πσ)+loge2πσ∫−∞+∞−(x−μ)2d(exp(−(x−μ)22σ2))=log(2πσ)−12logeπ∫−∞+∞(x−μ)2σd(exp(−(x−μ)22σ2))=log(2πσ)−loge2π(0−∫−∞+∞exp(−(x−μ)2σ)d(x−μ2σ))=log(2πσ)+loge2=12log(2πeσ2) h(X) = -\int_{-\infty}^{+\infin} p(x)\log{\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(x-\mu)^2}{2\sigma^2})} dx \\ = -\int_{-\infty}^{+\infin} p(x)\log{\frac{1}{\sqrt{2\pi}\sigma}} dx - \int_{-\infty}^{+\infin} p(x)\log{\exp(-\frac{(x-\mu)^2}{2\sigma^2})} dx \\ = -\int_{-\infty}^{+\infin} p(x)\log{\frac{1}{\sqrt{2\pi}\sigma}} dx + \log{e}\int_{-\infty}^{+\infin} p(x)\frac{(x-\mu)^2}{2\sigma^2} dx \\ = -\frac{\log{\frac{1}{\sqrt{2\pi}\sigma}}}{\sqrt{2\pi}\sigma} \int_{-\infty}^{+\infin}{\sqrt{2}\sigma\exp(-(\frac{(x-\mu)}{\sqrt{2}\sigma})^2)} d(\frac{x-\mu}{\sqrt{2}\sigma}) + \frac{\log e}{\sqrt{2\pi}\sigma} \int_{-\infty}^{+\infin} \exp(-\frac{(x-\mu)^2}{2\sigma^2})\frac{(x-\mu)^2}{2\sigma^2} dx\\ = \log(\sqrt{2\pi}\sigma) + \frac{\log e}{\sqrt{2\pi}\sigma} \int_{-\infty}^{+\infin} - \frac{(x-\mu)}{2} d(\exp(-\frac{(x-\mu)^2}{2\sigma^2})) \\ = \log(\sqrt{2\pi}\sigma) - \frac{1}{2} \frac{\log e}{\sqrt{\pi}} \int_{-\infty}^{+\infin} \frac{(x-\mu)}{\sqrt{2}\sigma} d(\exp(-\frac{(x-\mu)^2}{2\sigma^2})) \\ = \log(\sqrt{2\pi}\sigma) - \frac{\log e}{2\sqrt{\pi}} (0 - \int_{-\infty}^{+\infin} \exp(-\frac{(x-\mu)^2}{\sigma}) d(\frac{x-\mu}{\sqrt{2}\sigma})) \\ = \log(\sqrt{2\pi}\sigma) + \frac{\log e}{2} \\ = \frac{1}{2}\log(2\pi e\sigma^2) h(X)=−∫−∞+∞p(x)log2πσ1exp(−2σ2(x−μ)2)dx=−∫−∞+∞p(x)log2πσ1dx−∫−∞+∞p(x)logexp(−2σ2(x−μ)2)dx=−∫−∞+∞p(x)log2πσ1dx+loge∫−∞+∞p(x)2σ2(x−μ)2dx=−2πσlog2πσ1∫−∞+∞2σexp(−(2σ(x−μ))2)d(2σx−μ)+2πσloge∫−∞+∞exp(−2σ2(x−μ)2)2σ2(x−μ)2dx=log(2πσ)+2πσloge∫−∞+∞−2(x−μ)d(exp(−2σ2(x−μ)2))=log(2πσ)−21πloge∫−∞+∞2σ(x−μ)d(exp(−2σ2(x−μ)2))=log(2πσ)−2πloge(0−∫−∞+∞exp(−σ(x−μ)2)d(2σx−μ))=log(2πσ)+2loge=21log(2πeσ2)
注:∫−∞+∞exp(−x2)dx=π\int_{-\infty}^{+\infin} \exp(-x^2) dx = \sqrt{\pi}∫−∞+∞exp(−x2)dx=π。
因此,互信息 I(X;X^)I(X;\hat{X})I(X;X^):
I(X;X^)=h(X)−h(X∣X^)=12log(2πeσ2)−h(X−X^∣X^)(X^已知,所以减去X^不影响h(X∣X^)的值)≥12log(2πeσ2)−h(X−X^)≥12log(2πeσ2)−h(N(0,E(X−X^)2))(h(X−X^)与h(N(0,E(X−X^)2))具有相同方差)≥12log(2πeσ2)−12log(2πeD)((X−X^)2表示平方意义下的失真,必须小于D)=12logσ2D
I(X;\hat{X}) = h(X) - h(X|\hat{X}) \\
= \frac{1}{2} \log(2\pi e\sigma^2) - h(X-\hat{X}|\hat{X})(\hat{X}已知,所以减去\hat{X}不影响h(X|\hat{X})的值) \\
\ge \frac{1}{2} \log(2\pi e\sigma^2) - h(X-\hat{X}) \\
\ge \frac{1}{2} \log(2\pi e\sigma^2) - h(N(0,E(X-\hat{X})^2)) (h(X-\hat{X})与h(N(0,E(X-\hat{X})^2))具有相同方差)\\
\ge \frac{1}{2} \log(2\pi e\sigma^2) - \frac{1}{2} \log(2\pi eD) ((X-\hat{X})^2表示平方意义下的失真,必须小于D)\\
=\frac{1}{2}\log{\frac{\sigma^2}{D}}
I(X;X^)=h(X)−h(X∣X^)=21log(2πeσ2)−h(X−X^∣X^)(X^已知,所以减去X^不影响h(X∣X^)的值)≥21log(2πeσ2)−h(X−X^)≥21log(2πeσ2)−h(N(0,E(X−X^)2))(h(X−X^)与h(N(0,E(X−X^)2))具有相同方差)≥21log(2πeσ2)−21log(2πeD)((X−X^)2表示平方意义下的失真,必须小于D)=21logDσ2