[Elements of Information Theory]

本文深入探讨了信息论中的熵概念,包括离散随机变量的熵定义、性质及其与不确定性度量的关系。介绍了二元熵函数,并展示了熵在概率分布中的变化趋势。接着,联合熵和条件熵被提出,阐述了它们如何描述两个或多个变量之间的信息关系。最后,讨论了零熵的含义,即当一个变量完全确定时的情况。这些理论在数据压缩、通信和统计推断等领域有着广泛应用。

Entropy

Definition

  • Let X be a discrete random variable with alphabet X \mathcal{X} X and probability mass function p ( x ) = P r ( X = x ) , x ϵ X . p(x)=Pr(X=x),x \epsilon \mathcal{X}. p(x)=Pr(X=x),xϵX.

  • The entropy of X is defined as
    H ( X ) = − ∑ x ϵ X p ( x ) l o g p ( x ) H(X)=-\sum_{x\epsilon \mathcal{X}}p(x)logp(x) H(X)=xϵXp(x)logp(x)
    a measure of a uncertainty of a random variable

  • H ( X ) H(X) H(X) only depends on p ( x ) p(x) p(x).We also write H ( p ) H(p) H(p) for H ( X ) H(X) H(X).

  • H ( X ) ≥ 0 H(X)\ge0 H(X)0

  • When X X X is uniform over X \mathcal{X} X,then H ( X ) = l o g ∣ X ∣ H(X)=log\lvert \mathcal{X} \rvert H(X)=logX

  • H b ( X ) = l o g b a ∗ H a ( X ) H_{b}(X)=log_{b}a*H_{a}(X) Hb(X)=logbaHa(X)

Example

  • Binary entropy function H ( p ) H(p) H(p)
    L e t X = { 1 with probability p 0 with probability 1-p Let X= \begin{cases} 1& \text{with probability p}\\ 0& \text{with probability 1-p} \end{cases} LetX={10with probability pwith probability 1-p
    H ( X ) = − p l o g ( p ) − ( 1 − p ) l o g ( 1 − p ) H(X)=-plog(p)-(1-p)log(1-p) H(X)=plog(p)(1p)log(1p)

  • H ( X ) = − E p [ l o g p ( X ) ] H(X)=-E_{p}[logp(X)] H(X)=Ep[logp(X)]

  • For a discrete random variable X X X defined on X \mathcal{X} X,
    0 ≤ H ( X ) ≤ l o g ∣ X ∣ 0\le H(X)\le log\vert \mathcal{X} \rvert 0H(X)logX
    Equality if and only if p ( x ) = 1 / ∣ X ∣ p(x)=1/ \lvert \mathcal{X} \rvert p(x)=1/X.(Uniform distribution maximizes entropy)

  • Convexity is widely applied
    ∑ i p i f ( x i ) ≤ f ( ∑ i p i x i ) \sum_{i}p_{i}f(x_{i})\le f(\sum_{i}p_{i}x_{i}) ipif(xi)f(ipixi)

Joint Entropy

  • Two random variables X X X and Y Y Y can be considered to be a single vector-valued random variable
  • The joint entropy H ( X , Y ) H(X,Y) H(X,Y) of a pair of discrete random variable ( X , Y ) (X,Y) (X,Y) with joint distribution p ( x , y ) p(x,y) p(x,y) is defined as
    H ( X , Y ) = − ∑ x ϵ X ∑ y ϵ Y p ( x , y ) l o g p ( x , y ) H(X,Y)=-\sum_{x\epsilon \mathcal{X}} \sum_{y\epsilon \mathcal{Y}}p(x,y)logp(x,y) H(X,Y)=xϵXyϵYp(x,y)logp(x,y)
  • H ( X , Y ) = − E l o g p ( X , Y ) H(X,Y)=-Elogp(X,Y) H(X,Y)=Elogp(X,Y)
  • H ( X , X ) = H ( X ) H(X,X)=H(X) H(X,X)=H(X)
  • H ( X , Y ) = H ( Y , X ) H(X,Y)=H(Y,X) H(X,Y)=H(Y,X)
  • H ( X 1 , X 2 , . . . , X n ) = − ∑ p ( x 1 , x 2 , . . . , x n ) l o g p ( x 1 , x 2 , . . . , x n ) H(X_{1},X_{2},...,X_{n})=-\sum p(x_{1},x_{2},...,x_{n})logp(x_{1},x_{2},...,x_{n}) H(X1,X2,...,Xn)=p(x1,x2,...,xn)logp(x1,x2,...,xn)

Conditional Entropy

  • Entropy for p ( Y ∣ X = x ) p(Y|X=x) p(YX=x)
    H ( Y ∣ X = x ) = ∑ y − p ( y ∣ X = x ) l o g p ( y ∣ X = x ) = − E l o g p ( y ∣ X = x ) H(Y|X=x)=\sum_{y}-p(y|X=x)logp(y|X=x)=-Elogp(y|X=x) H(YX=x)=yp(yX=x)logp(yX=x)=Elogp(yX=x)
  • When X X X is known: H ( Y ∣ X ) ≤ H ( Y ) H(Y|X)\le H(Y) H(YX)H(Y)
  • H ( X ∣ Y ) ≠ H ( Y ∣ X ) H(X|Y)\ne H(Y|X) H(XY)=H(YX)
  • H ( X ∣ Y ) + H ( Y ) = H ( Y ∣ X ) + H ( X ) = H ( X , Y ) H(X|Y)+H(Y)=H(Y|X)+H(X)=H(X,Y) H(XY)+H(Y)=H(YX)+H(X)=H(X,Y)

Zero Entropy

  • If H ( Y ∣ X ) = 0 H(Y|X)=0 H(YX)=0:
    • then Y Y Y is a function of X X X.
    • H ( Y ∣ X = x ) = 0 H(Y|X=x)=0 H(YX=x)=0
### 关于信息熵的研究论文 信息熵的概念最早由克劳德·香农在其经典论文《A Mathematical Theory of Communication》中提出,这篇论文被认为是现代信息论的奠基之作[^1]。在这篇论文中,香农引入了“比特”这一术语,并定义了通信中的基本参数——熵,用于描述给定通信系统的状态范围。 除了香农的经典工作外,还有许多后续研究进一步扩展了信息熵的应用领域: #### 1. **应用拓展** 一些学者探讨了信息熵在不同场景下的具体实现方式及其优化方法。例如,在数据流挖掘领域,Fan等人提出了基于有限标记数据项的决策树演化算法,其中涉及到了如何利用信息增益(一种基于熵的度量)来处理漂移数据流问题[^3]。 #### 2. **伦理考量** 尽管技术进步显著,但在实际应用过程中也需要关注潜在的风险因素。有研究表明,在设计信息安全解决方案时应当充分考虑道德规范以及用户隐私保护等问题[^2]。因此,在寻找有关信息熵方面的学术资料时可以特别留意那些既注重理论创新又兼顾社会责任感的作品。 以下是几个可能对你有所帮助的方向建议: - 探索机器学习模型训练过程里涉及到的信息压缩与表达效率之间的权衡关系; - 研究网络流量分析任务下采用互信息作为特征选择依据的有效性评估; - 考察生物医学信号处理环节运用最大似然估计法计算条件概率分布函数时所依赖的基础假设前提等等。 ```python # 示例代码展示如何简单估算离散随机变量X的概率质量函数PMF并据此求解其对应的Shannon Entropy H(X) import numpy as np def shannon_entropy(pmf): pmf = np.array(pmf) valid_pmf = pmf[pmf != 0] # Remove zero probabilities to avoid log(0) errors. return -np.sum(valid_pmf * np.log2(valid_pmf)) example_pmf = [0.5, 0.3, 0.2] entropy_value = shannon_entropy(example_pmf) print(f"The Shannon entropy of {example_pmf} is approximately {entropy_value:.4f}.") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值