1. 熵
熵[1],热力学中表征物质状态的参量之一,用符号 S S S 表示,其物理意义是体系混乱程度的度量。
2. 信息熵
信息量的多少或者大小,该如何描述呢?直到1948年,香农(Shannon)提出了“信息熵[2]”的概念,解决了信息的度量问题。
定义
设
X
X
X 是一个随机变量,
p
(
x
)
p(x)
p(x) 是
x
x
x 的概率,且
x
∈
X
x \in X
x∈X,则
X
X
X 的信息熵为:
H ( X ) = − ∑ x ∈ X p ( x ) log p ( x ) (1) H(X) = - \sum_{x \in X} p(x) \log p(x) \tag{1} H(X)=−x∈X∑p(x)logp(x)(1)
有时也将(1)写作:
H ( X ) = − ∑ i = 1 n p ( x i ) log p ( x i ) (2) H(X) = - \sum_{i=1}^{n} p(x_i) \log p(x_i) \tag{2} H(X)=−i=1∑np(xi)logp(xi)(2)
规定:
0 log 0 = 0 0 \log 0 = 0 0log0=0。
并且有
0 ≤ H ( X ) ≤ log n 0 \leq H(X) \leq \log n 0≤H(X)≤logn, n n n 是取值的种类数。
信息熵的单位:如果以2为底,则熵的单位是比特(bit);如果以
e
e
e 为底,则熵的单位是纳特(nat);还有一些其他的单位可以通过相互转换得到。
由公式(2)可得,随机变量的取值个数越多,状态数也就越多,信息熵也就越大,混乱程度也就越大。
当随机分布为均匀分布时,熵最大。
- 熵(entropy)是度量信息不确定性的值。
举个例子,预测明天的天气。
如果100%能确定明天一定是晴天,那么熵就是 H ( A ) = − 1 ∗ log 1 = 0 H(A)=-1*\log 1=0 H(A)=−1∗log1=0
也就是说不确定为0。
如果说明天有50%的概率晴天,50%的概率下雨,那么熵就是 H ( A ) = − ( 1 2 ∗ log 1 2 + 1 2 ∗ log 1 2 ) = − ( − 1 2 − 1 2 ) = 1 H(A)=-(\frac{1}{2}* \log \frac{1}{2} + \frac{1}{2} * \log \frac{1}{2})=-(-\frac{1}{2}-\frac{1}{2})=1 H(A)=−(21∗log21+21∗log21)=−(−21−21)=1可以说不确定性为1。
而如果明天有25%概率晴天,25%概率下雨,25%概率阴天,25%概率下雪,那么熵就是 H ( A ) = − 4 ∗ 1 4 ∗ log 1 4 = − 4 ∗ ( − 1 2 ) = 2 H(A)=-4*\frac{1}{4}*\log \frac{1}{4}=-4*(-\frac{1}{2})=2 H(A)=−4∗41∗log41=−4∗(−21)=2
也就是说,随着不确定性的增加,熵值也在增加。
- 熵(entropy)是表示系统所包含的信息量。
举个例子,如 “ a a B a a a V a a a a a aaBaaaVaaaaa aaBaaaVaaaaa” 这段字母,信息熵
H ( A ) = − 5 6 ∗ log 5 6 − 2 ∗ 1 12 ∗ log 1 12 = 0.817 H(A)=-\frac{5}{6} \ast \log \frac{5}{6}-2 \ast \frac{1}{12} \ast \log \frac{1}{12}=0.817 H(A)=−65∗log65−2∗121∗log121=0.817
而 “ a b B c d e V f h g i m abBcdeVfhgim abBcdeVfhgim” 这段子母,信息熵
H ( A ) = − 12 ∗ 1 12 ∗ log 1 12 = 3.585 H(A)=-12 \ast \frac{1}{12} \ast \log \frac{1}{12}=3.585 H(A)=−12∗121∗log121=3.585
显然,第二段字母包含的信息量更大。
对于连续性随机变量,信息熵的公式变为积分公式,
H ( A ) = H ( X ) = E x ∼ p ( x ) [ − log p ( x ) ] = − ∫ p ( x ) log p ( x ) d x . H(A) = H(X) = E_{x \sim p(x)} [- \log p(x)] = - \int p(x) \log p(x) dx. H(A)=H(X)=Ex∼p(x)[−logp(x)]=−∫p(x)logp(x)dx.
证明
0
≤
H
(
X
)
≤
log
n
0 \leq H(X) \leq \log n
0≤H(X)≤logn
利用拉格朗日乘子法证明:
因为
p ( 1 ) + p ( 2 ) + ⋯ + p ( n ) = 1 p(1) + p(2) + \dots + p(n) = 1 p(1)+p(2)+⋯+p(n)=1
所以有,
目标函数:
f ( p ( 1 ) , p ( 2 ) , … , p ( n ) ) = − ( p ( 1 ) log p ( 1 ) + p ( 2 ) log p ( 2 ) + ⋯ + p ( n ) log p ( n ) ) f(p(1), p(2), \dots, p(n)) = -(p(1) \log p(1) + p(2) \log p(2) + \dots + p(n) \log p(n)) f(p(1),p(2),…,p(n))=−(p(1)logp(1)+p(2)logp(2)+⋯+p(n)logp(n))
约束条件:
g ( p ( 1 ) , p ( 2 ) , … , p ( n ) , λ ) = p ( 1 ) + p ( 2 ) + ⋯ + p ( n ) − 1 = 0 g(p(1), p(2), \dots, p(n), \lambda) = p(1) + p(2) + \dots + p(n) - 1 = 0 g(p(1),p(2),…,p(n),λ)=p(1)+p(2)+⋯+p(n)−1=0
1、定义拉格朗日函数:
L ( p ( 1 ) , p ( 2 ) , … , p ( n ) , λ ) = − ( p ( 1 ) log p ( 1 ) + p ( 2 ) log p ( 2 ) + ⋯ + p ( n ) log p ( n ) + λ ( p ( 1 ) + p ( 2 ) + ⋯ + p ( n ) − 1 ) ) L(p(1), p(2), \dots, p(n), \lambda) = - (p(1) \log p(1) + p(2) \log p(2) + \dots + p(n) \log p(n) + \lambda (p(1) + p(2) + \dots + p(n) - 1)) L(p(1),p(2),…,p(n),λ)=−(p(1)logp(1)+p(2)logp(2)+⋯+p(n)logp(n)+λ(p(1)+p(2)+⋯+p(n)−1))
2、 L ( p ( 1 ) , p ( 2 ) , … , p ( n ) , λ ) L(p(1), p(2), \dots, p(n), \lambda) L(p(1),p(2),…,p(n),λ) 分别对 p ( 1 ) p(1) p(1), p ( 2 ) p(2) p(2), … \dots …, p ( n ) p(n) p(n), λ \lambda λ 求偏导数,令偏导数为0:
λ − log p ( 1 ) − 1 = 0 λ − log p ( 2 ) − 1 = 0 … λ − log p ( n ) − 1 = 0 p ( 1 ) + p ( 2 ) + ⋯ + p ( n ) − 1 = 0 \begin{aligned} \lambda - \log p(1) - 1 & = 0 \\ \lambda - \log p(2) - 1 & = 0 \\ \dots \\ \lambda - \log p(n) - 1 & = 0 \\ p(1) + p(2) + \dots + p(n) - 1 & = 0 \end{aligned} λ−logp(1)−1λ−logp(2)−1…λ−logp(n)−1p(1)+p(2)+⋯+p(n)−1=0=0=0=0
3、求出 p ( 1 ) p(1) p(1), p ( 2 ) p(2) p(2), … \dots …, p ( n ) p(n) p(n) 的值:
解方程得,
p ( 1 ) = p ( 2 ) = ⋯ = p ( n ) = 1 n p(1) = p(2) = \dots = p(n) = \frac{1}{n} p(1)=p(2)=⋯=p(n)=n1
代入 f ( p ( 1 ) , p ( 2 ) , … , p ( n ) ) f(p(1), p(2), \dots, p(n)) f(p(1),p(2),…,p(n)) 中,得到目标函数的极值为
f ( p ( 1 ) , p ( 2 ) , … , p ( n ) ) = f ( 1 n , 1 n , … , 1 n ) = − ( 1 n log 1 n + 1 n log 1 n + ⋯ + 1 n log 1 n ) = − n 1 n log 1 n = − log 1 n = log n f(p(1), p(2), \dots, p(n)) = f(\frac{1}{n}, \frac{1}{n}, \dots, \frac{1}{n}) = - (\frac{1}{n} \log \frac{1}{n} + \frac{1}{n} \log \frac{1}{n} + \dots + \frac{1}{n} \log \frac{1}{n}) = - n \frac{1}{n} \log \frac{1}{n} = - \log \frac{1}{n} = \log n f(p(1),p(2),…,p(n))=f(n1,n1,…,n1)=−(n1logn1+n1logn1+⋯+n1logn1)=−nn1logn1=−logn1=logn
的证。