[Elements of Information Theory]

原创已于 2022-04-21 18:09:41 修改 · 1k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#其他

于 2022-04-21 17:04:16 首次发布

本文深入探讨了信息论中的熵概念，包括离散随机变量的熵定义、性质及其与不确定性度量的关系。介绍了二元熵函数，并展示了熵在概率分布中的变化趋势。接着，联合熵和条件熵被提出，阐述了它们如何描述两个或多个变量之间的信息关系。最后，讨论了零熵的含义，即当一个变量完全确定时的情况。这些理论在数据压缩、通信和统计推断等领域有着广泛应用。

CONTENT

Entropy

Entropy

Definition

Let X be a discrete random variable with alphabet $\mathcal{X}$ and probability mass function $\epsilon \mathcal{X}.$
The entropy of X is defined as
$H(X)=-\sum_{x\epsilon \mathcal{X}}p(x)logp(x)$
a measure of a uncertainty of a random variable
$H (X)$ only depends on $p (x)$ .We also write $H (p)$ for $H (X)$ .
$H(X)\ge0$
When $X$ is uniform over $\mathcal{X}$ ,then $H(X)=log\lvert \mathcal{X} \rvert$
$H_{b}(X)=log_{b}a*H_{a}(X)$

Example

Binary entropy function $H (p)$
$\begin{cases} 1& \text{with probability p}\\ 0& \text{with probability 1-p} \end{cases}$
$H (X) = - p l o g (p) - (1 - p) l o g (1 - p)$
$H(X)=-E_{p}[logp(X)]$
For a discrete random variable $X$ defined on $\mathcal{X}$ ,
$0\le H(X)\le log\vert \mathcal{X} \rvert$
Equality if and only if $\lvert \mathcal{X} \rvert$ .(Uniform distribution maximizes entropy)
Convexity is widely applied
$\sum_{i}p_{i}f(x_{i})\le f(\sum_{i}p_{i}x_{i})$

Joint Entropy

Two random variables $X$ and $Y$ can be considered to be a single vector-valued random variable
The joint entropy $H (X, Y)$ of a pair of discrete random variable $(X, Y)$ with joint distribution $p (x, y)$ is defined as
$H(X,Y)=-\sum_{x\epsilon \mathcal{X}} \sum_{y\epsilon \mathcal{Y}}p(x,y)logp(x,y)$
$H (X, Y) = - E l o g p (X, Y)$
$H (X, X) = H (X)$
$H (X, Y) = H (Y, X)$
$H(X_{1},X_{2},...,X_{n})=-\sum p(x_{1},x_{2},...,x_{n})logp(x_{1},x_{2},...,x_{n})$

Conditional Entropy

Entropy for $p (Y ∣ X = x)$
$H(Y|X=x)=\sum_{y}-p(y|X=x)logp(y|X=x)=-Elogp(y|X=x)$
When $X$ is known: $H(Y|X)\le H(Y)$
$H(X|Y)\ne H(Y|X)$
$H (X ∣ Y) + H (Y) = H (Y ∣ X) + H (X) = H (X, Y)$