文章目录
相关文章:
1. 信息熵 Information Entropy
信息是个很抽象的概念。人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到1948年,香农提出了“信息熵”的概念,才解决了对信息的量化度量问题。
信息熵
这个词是香农从热力学中借用过来的。热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述不确定性
。
- 随机变量 x x x的信息熵计算公式: H ( x ) = − ∑ i = 1 n P ( x i ) l o g 2 ( P i ) H(x)= -\sum_{i=1}^nP(x_i)log_2(P_i) H(x)=−∑i=1nP(xi)log2(Pi)
- 信息熵越大,则表示不确定性越高。
- 在文本中,当不同的词汇越多时,其信息熵越大,直观上来说就是所包含的信息越多
熵:在物理的热力学中,用熵来表示分子状态混乱程度。当一个物体温度越高时,其内部粒子活动越剧烈,也越混乱。因此混乱程度越高,熵越大。
1.1 信息熵公式推导
- 计算取出结果与原顺序相同的概率:
P ( x i ) = P ( x 1 ) × P ( x 2 ) × . . . × P ( x n ) (1) P(x_i)=P(x_1)\times P(x_2) \times...\times P(x_n)\tag{1} P(xi)=P(x1)×P(x2)×...×P(xn)(1)
- 将概率公式取以2为底的对数变换,得到信息量 I ( x i ) I(x_i) I(xi)的公式:
I ( x i ) = l o g 2 ( 1 P ( x i ) ) = − l o g 2 ( P ( x i ) ) (2) I(x_i)=log_2(\frac{1}{P(x_i)})=-log_2(P(x_i))\tag{2} I(xi)=log2(P(xi)1)=−log2(P(xi))(2)
- 随机变量 x x x的信息熵计算公式::
H ( x ) = E [ I ( x i ) ] = − E [ l o g 2 ( P ( x i ) ) ] = − ∑ i = 1 n P ( x i ) l o g 2 ( P i ) (3) H(x)=E[I(x_i)]=-E[log_2(P(x_i))]= -\sum_{i=1}^nP(x_i)log_2(P_i)\tag{3} H(x)=E[I(xi)]=−E[log2(P(xi))]=−i=1∑nP(xi)log2(Pi)(3)
对于样本集合 D D D来说,随机变量 x x x是样本的类别,即假设样本有 k k k个类别,样本总数为 D D D,则类别 i i i的概率是 c i D \frac{c_i}{D} Dci。
因此样本集合 D D D的经验熵为:
H ( D ) = − ∑ i = 1 k ∣ c i ∣ ∣ D ∣ l o g 2 ( ∣ c i ∣ ∣ D ∣ ) (4) H(D)=-\sum_{i=1}^k \frac{|c_i|}{|D|}log_2(\frac{|c_i|}{|D|}) \tag{4} H(D)=−i=1∑k∣D∣∣ci∣log2(∣D∣∣ci∣)(4)
例1:假设有四个球,从中随机放回地抽出四个球,下面计算各个事件的信息熵:
1.红红红红
,则事件 x x x的信息熵:
H ( x ) = − ∑ i = 1 4 P ( x i ) l o g 2 ( P i ) = [ 1 × l o g 2 ( 1 ) + 1 × l o g 2 ( 1 ) + 1 × l o g 2 ( 1 ) + 1 × l o g 2 ( 1 ) ] = 0 H(x)=-\sum_{i=1}^4P(x_i)log_2(P_i) =[1 \times log_2(1)+1 \times log_2(1)+1 \times log_2(1)+1 \times log_2(1)]=0 H(x)=−∑i=14