信息熵

本文介绍了熵和信息熵的概念。熵是热力学中表征物质状态的参量,信息熵由香农提出,解决了信息的度量问题。文中给出信息熵的定义、公式,分析了随机变量取值与信息熵的关系,还通过例子说明不确定性与熵值的关联,并对连续性随机变量的信息熵公式及相关证明进行阐述。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >



1. 熵

熵[1],热力学中表征物质状态的参量之一,用符号 S S S 表示,其物理意义是体系混乱程度的度量。

 

2. 信息熵

信息量的多少或者大小,该如何描述呢?直到1948年,香农(Shannon)提出了“信息熵[2]”的概念,解决了信息的度量问题。

定义
X X X 是一个随机变量, p ( x ) p(x) p(x) x x x 的概率,且 x ∈ X x \in X xX,则 X X X 的信息熵为:

H ( X ) = − ∑ x ∈ X p ( x ) log ⁡ p ( x ) (1) H(X) = - \sum_{x \in X} p(x) \log p(x) \tag{1} H(X)=xXp(x)logp(x)(1)

有时也将(1)写作:

H ( X ) = − ∑ i = 1 n p ( x i ) log ⁡ p ( x i ) (2) H(X) = - \sum_{i=1}^{n} p(x_i) \log p(x_i) \tag{2} H(X)=i=1np(xi)logp(xi)(2)

规定:

0 log ⁡ 0 = 0 0 \log 0 = 0 0log0=0

并且有

0 ≤ H ( X ) ≤ log ⁡ n 0 \leq H(X) \leq \log n 0H(X)logn n n n 是取值的种类数。

信息熵的单位:如果以2为底,则熵的单位是比特(bit);如果以 e e e 为底,则熵的单位是纳特(nat);还有一些其他的单位可以通过相互转换得到。
 
由公式(2)可得,随机变量的取值个数越多,状态数也就越多,信息熵也就越大,混乱程度也就越大。
当随机分布为均匀分布时,熵最大。

  1. 熵(entropy)是度量信息不确定性的值。
    举个例子,预测明天的天气。
    如果100%能确定明天一定是晴天,那么熵就是 H ( A ) = − 1 ∗ log ⁡ 1 = 0 H(A)=-1*\log 1=0 H(A)=1log1=0
    也就是说不确定为0。
    如果说明天有50%的概率晴天,50%的概率下雨,那么熵就是 H ( A ) = − ( 1 2 ∗ log ⁡ 1 2 + 1 2 ∗ log ⁡ 1 2 ) = − ( − 1 2 − 1 2 ) = 1 H(A)=-(\frac{1}{2}* \log \frac{1}{2} + \frac{1}{2} * \log \frac{1}{2})=-(-\frac{1}{2}-\frac{1}{2})=1 H(A)=(21log21+21log21)=(2121)=1可以说不确定性为1。
    而如果明天有25%概率晴天,25%概率下雨,25%概率阴天,25%概率下雪,那么熵就是 H ( A ) = − 4 ∗ 1 4 ∗ log ⁡ 1 4 = − 4 ∗ ( − 1 2 ) = 2 H(A)=-4*\frac{1}{4}*\log \frac{1}{4}=-4*(-\frac{1}{2})=2 H(A)=441log41=4(21)=2
    也就是说,随着不确定性的增加,熵值也在增加。
  1. 熵(entropy)是表示系统所包含的信息量。
    举个例子,如 “ a a B a a a V a a a a a aaBaaaVaaaaa aaBaaaVaaaaa” 这段字母,信息熵
    H ( A ) = − 5 6 ∗ log ⁡ 5 6 − 2 ∗ 1 12 ∗ log ⁡ 1 12 = 0.817 H(A)=-\frac{5}{6} \ast \log \frac{5}{6}-2 \ast \frac{1}{12} \ast \log \frac{1}{12}=0.817 H(A)=65log652121log121=0.817
    而 “ a b B c d e V f h g i m abBcdeVfhgim abBcdeVfhgim” 这段子母,信息熵
    H ( A ) = − 12 ∗ 1 12 ∗ log ⁡ 1 12 = 3.585 H(A)=-12 \ast \frac{1}{12} \ast \log \frac{1}{12}=3.585 H(A)=12121log121=3.585
    显然,第二段字母包含的信息量更大。

对于连续性随机变量,信息熵的公式变为积分公式,

H ( A ) = H ( X ) = E x ∼ p ( x ) [ − log ⁡ p ( x ) ] = − ∫ p ( x ) log ⁡ p ( x ) d x . H(A) = H(X) = E_{x \sim p(x)} [- \log p(x)] = - \int p(x) \log p(x) dx. H(A)=H(X)=Exp(x)[logp(x)]=p(x)logp(x)dx.

 
证明 0 ≤ H ( X ) ≤ log ⁡ n 0 \leq H(X) \leq \log n 0H(X)logn

利用拉格朗日乘子法证明:
因为
p ( 1 ) + p ( 2 ) + ⋯ + p ( n ) = 1 p(1) + p(2) + \dots + p(n) = 1 p(1)+p(2)++p(n)=1
所以有,
目标函数:
f ( p ( 1 ) , p ( 2 ) , … , p ( n ) ) = − ( p ( 1 ) log ⁡ p ( 1 ) + p ( 2 ) log ⁡ p ( 2 ) + ⋯ + p ( n ) log ⁡ p ( n ) ) f(p(1), p(2), \dots, p(n)) = -(p(1) \log p(1) + p(2) \log p(2) + \dots + p(n) \log p(n)) f(p(1),p(2),,p(n))=(p(1)logp(1)+p(2)logp(2)++p(n)logp(n))
约束条件:
g ( p ( 1 ) , p ( 2 ) , … , p ( n ) , λ ) = p ( 1 ) + p ( 2 ) + ⋯ + p ( n ) − 1 = 0 g(p(1), p(2), \dots, p(n), \lambda) = p(1) + p(2) + \dots + p(n) - 1 = 0 g(p(1),p(2),,p(n),λ)=p(1)+p(2)++p(n)1=0

 
1、定义拉格朗日函数:

L ( p ( 1 ) , p ( 2 ) , … , p ( n ) , λ ) = − ( p ( 1 ) log ⁡ p ( 1 ) + p ( 2 ) log ⁡ p ( 2 ) + ⋯ + p ( n ) log ⁡ p ( n ) + λ ( p ( 1 ) + p ( 2 ) + ⋯ + p ( n ) − 1 ) ) L(p(1), p(2), \dots, p(n), \lambda) = - (p(1) \log p(1) + p(2) \log p(2) + \dots + p(n) \log p(n) + \lambda (p(1) + p(2) + \dots + p(n) - 1)) L(p(1),p(2),,p(n),λ)=(p(1)logp(1)+p(2)logp(2)++p(n)logp(n)+λ(p(1)+p(2)++p(n)1))

2、 L ( p ( 1 ) , p ( 2 ) , … , p ( n ) , λ ) L(p(1), p(2), \dots, p(n), \lambda) L(p(1),p(2),,p(n),λ) 分别对 p ( 1 ) p(1) p(1) p ( 2 ) p(2) p(2) … \dots p ( n ) p(n) p(n) λ \lambda λ 求偏导数,令偏导数为0:

λ − log ⁡ p ( 1 ) − 1 = 0 λ − log ⁡ p ( 2 ) − 1 = 0 … λ − log ⁡ p ( n ) − 1 = 0 p ( 1 ) + p ( 2 ) + ⋯ + p ( n ) − 1 = 0 \begin{aligned} \lambda - \log p(1) - 1 & = 0 \\ \lambda - \log p(2) - 1 & = 0 \\ \dots \\ \lambda - \log p(n) - 1 & = 0 \\ p(1) + p(2) + \dots + p(n) - 1 & = 0 \end{aligned} λlogp(1)1λlogp(2)1λlogp(n)1p(1)+p(2)++p(n)1=0=0=0=0

3、求出 p ( 1 ) p(1) p(1) p ( 2 ) p(2) p(2) … \dots p ( n ) p(n) p(n) 的值:

解方程得,

p ( 1 ) = p ( 2 ) = ⋯ = p ( n ) = 1 n p(1) = p(2) = \dots = p(n) = \frac{1}{n} p(1)=p(2)==p(n)=n1

代入 f ( p ( 1 ) , p ( 2 ) , … , p ( n ) ) f(p(1), p(2), \dots, p(n)) f(p(1),p(2),,p(n)) 中,得到目标函数的极值为

f ( p ( 1 ) , p ( 2 ) , … , p ( n ) ) = f ( 1 n , 1 n , … , 1 n ) = − ( 1 n log ⁡ 1 n + 1 n log ⁡ 1 n + ⋯ + 1 n log ⁡ 1 n ) = − n 1 n log ⁡ 1 n = − log ⁡ 1 n = log ⁡ n f(p(1), p(2), \dots, p(n)) = f(\frac{1}{n}, \frac{1}{n}, \dots, \frac{1}{n}) = - (\frac{1}{n} \log \frac{1}{n} + \frac{1}{n} \log \frac{1}{n} + \dots + \frac{1}{n} \log \frac{1}{n}) = - n \frac{1}{n} \log \frac{1}{n} = - \log \frac{1}{n} = \log n f(p(1),p(2),,p(n))=f(n1,n1,,n1)=(n1logn1+n1logn1++n1logn1)=nn1logn1=logn1=logn

的证。


3. 参考文章:

  1. 百度百科:熵
  2. 百度百科:信息熵
  3. 信息熵及其相关概念

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值