信息熵
Q:信息是不是可以量化?
“2022年中国队不可能会拿世界杯冠军” 信息量小,相当于废话。“谁能拿2022年世界杯冠军”信息量大,因为不确定性大。信息量与信息的不确定性有关。
Q:不确定性与哪些因素有关?
1. 事件可能的结果数
讨论太阳从哪升起,只有一个结果,无论传递任何信息都是没有信息量的。当可能结果数量比较大时,得到新信息才有潜力拥有大信息量。
2. 概率分布
单看可能结果数量不够,还要看初始的概率分布。例如一开始我就知道小明在电影院的有15*15个座位的A厅看电影。小明可以坐的位置有225个,可能结果数量算多了。可是假如我们一开始就知道小明坐在第一排的最左边的可能是99%,坐其它位置的可能性微乎其微,那么在大多数情况下,你再告诉我小明的什么信息也没有多大用,因为我们几乎确定小明坐第一排的最左边了。
Q:如何度量不确定性?
- 非负
- 可加
- 信息量跟概率有关系,信息量是连续依赖于概率的
- 信息量大小跟可能结果数量有关。假如每一个可能的结果出现的概率一样,那么对于可能结果数量多的那个事件,新信息有更大的潜力具有更大的信息量,因为初始状态下不确定性更大
Q:那有什么函数能满足上面四个条件呢?
负的对数函数,也就是 − log ( x ) -\log(x) −log(x),底数取大于1的数保证这个函数是非负的就行。前面再随便乘个正常数也行。
a. 为什么不是正的?由于
x
x
x是小于等于
1
1
1的数,
log
(
x
)
\log(x)
log(x)就小于等于
0
0
0了(满足1)
b. 假如
x
x
x是一个概率,那么
log
(
x
)
\log(x)
log(x)是连续依赖于
x
x
x的(满足3)
c. 假如有
n
n
n个可能结果,那么出现任意一个的概率是
1
n
\frac{1}{n}
n1,而
−
l
o
g
(
1
n
)
-log(\frac{1}{n})
−log(n1)是
n
n
n的增函数(满足4)
d. 由于
−
l
o
g
(
x
y
)
=
−
l
o
g
(
x
)
−
l
o
g
(
y
)
-log(xy) = -log(x)-log(y)
−log(xy)=−log(x)−log(y)(满足2)
Q:什么是信息熵?
信息熵就是平均而言发生一个事件我们得到的信息量大小。所以数学上,信息熵其实是信息量的期望。
H = − ∑ x ∈ U P ( x ) log P ( x ) H=-\sum \limits_{x \in U}{P(x)\log P(x)} H=−x∈U∑P(x)logP(x)
Q:熵的链式法则是什么?
H ( X , Y ) = H ( X ) + H ( Y ∣ X ) H(X,Y)=H(X)+H(Y|X) H(X,Y)=H(X)+H(Y∣X)
证明:
H ( X , Y ) = − ∑ x , y p ( x , y ) l o g   p ( x , y ) = − ∑ x , y p ( x , y ) l o g   ( p ( y ∣ x ) p ( x ) ) H(X,Y)=-\sum_{x,y}p(x,y)log\,p(x,y) =-\sum_{x,y}p(x,y)log\,(p(y|x)p(x)) H(X,Y)=−∑x,yp(x,y)logp(x,y)=−∑x,yp(x,y)log(p(y∣x)p(x))
H ( X , Y ) = − ∑ x , y p ( x , y ) l o g   p ( y ∣ x ) − ∑ x , y p ( x , y ) l o g   p ( x ) H(X,Y)=-\sum_{x,y}p(x,y)log\,p(y|x)-\sum_{x,y}p(x,y)log\,p(x) H(X,Y)=−∑x,yp(x,y)logp(y∣x)−∑x,yp(x,y)logp(x)
H ( X , Y ) = H ( Y ∣ X ) − ∑ x l o g   p ( x ) ∑ y p ( x , y ) H(X,Y)=H(Y|X)-\sum_{x}log\,p(x)\sum_{y}p(x,y) H(X,Y)=H(Y∣X)−∑xlogp(x)∑yp(x,y)
H ( X , Y ) = H ( Y ∣ X ) − ∑ x l o g   p ( x ) p ( x ) = H ( Y ∣ X ) + H ( X ) H(X,Y)=H(Y|X)-\sum_{x}log\,p(x)p(x) =H(Y|X)+H(X) H(X,Y)=H(Y∣X)−∑xlogp(x)p(x)=H(Y∣X)+H(X)
推广:
H
(
X
,
Y
∣
Z
)
=
H
(
X
∣
Z
)
+
H
(
Y
∣
X
,
Z
)
H(X,Y|Z)=H(X|Z)+H(Y|X,Z)
H(X,Y∣Z)=H(X∣Z)+H(Y∣X,Z)
注意:熵只依赖于随机变量的分布,与随机变量取值无关。
Q:熵有哪些性质?
a. 熵的非负性(即 H ( X ) > 0 H(X)>0 H(X)>0)
由熵的定义可知,
H
(
X
)
=
−
∑
x
∈
X
p
(
x
)
log
p
(
x
)
=
∑
x
∈
X
p
(
x
)
log
1
p
(
x
)
H(X)=-\sum_{x \in \mathcal{X}}^{}{p(x) \log p(x)}=\sum_{x \in \mathcal{X}}^{}{p(x)\log \frac{1}{p(x)}}
H(X)=−∑x∈Xp(x)logp(x)=∑x∈Xp(x)logp(x)1。
由于
p
(
x
)
∈
(
0
,
1
)
p(x)\in (0, 1)
p(x)∈(0,1) ,故
log
1
p
(
x
)
>
0
\log\frac{1}{p(x)}>0
logp(x)1>0 ,从而
H
(
X
)
>
0
H(X)>0
H(X)>0。
b. 条件减少性(即 H ( X ) ≥ H ( X ∣ Y ) H(X) \geq H(X|Y) H(X)≥H(X∣Y))
由互信息的定义得:
I
(
X
;
Y
)
=
H
(
X
)
−
H
(
X
∣
Y
)
≥
0
⇒
H
(
X
)
≥
H
(
X
∣
Y
)
I(X;Y)=H(X)-H(X|Y) \geq 0 \Rightarrow H(X) \geq H(X|Y)
I(X;Y)=H(X)−H(X∣Y)≥0⇒H(X)≥H(X∣Y)
注意:这个式子是平均意义上成立的。当知道某个确切的事情 H(X|Y=y) 并不一定会减少信息量,有时候反而会增加信息量。例如,警察查案,如果获得了某个新的线索,却引出了更多的待解问题就带了新的信息量。
c. 熵的独立界 (即 H ( X 1 , X 2 , ⋯   , X n ) ≤ ∑ i = 1 n H ( X i ) H(X_{1},X_{2},\cdots,X_{n}) \leq \sum_{i=1}^{{n}}H(X_{i}) H(X1,X2,⋯,Xn)≤∑i=1nH(Xi))
我们利用熵的链式法则有:
H
(
X
1
,
X
2
,
⋯
 
,
X
n
)
=
∑
i
=
1
n
H
(
X
i
∣
X
i
−
1
,
⋯
 
,
X
1
)
H(X_{1},X_{2},\cdots,X_{n})= \sum_{i=1}^{{n}}H(X_{i}|X_{i-1},\cdots,X_{1})
H(X1,X2,⋯,Xn)=∑i=1nH(Xi∣Xi−1,⋯,X1)
然后利用条件减少性即可得到结果。
d. 最值性
即当随机变量 X 服从均匀分布时候,熵取得最大值。
利用相对熵的非负性进行证明:
设
u
(
x
)
=
1
∣
X
∣
u(x)=\frac{1}{\left| \mathcal{X} \right|}
u(x)=∣X∣1 ,其中
∣
X
∣
\left| \mathcal{X} \right|
∣X∣ 表示为随机变量的取值集合的势(即集合的元素个数)
则对于任意的
p
(
x
)
p(x)
p(x) ,它们的相对熵为:
D
(
p
∣
∣
u
)
=
∑
x
∈
X
p
(
x
)
l
o
g
p
(
x
)
u
(
x
)
=
∑
x
∈
X
p
(
x
)
log
p
(
x
)
−
∑
x
∈
X
p
(
x
)
l
o
g
1
∣
X
∣
D(p||u)= \sum_{x \in \mathcal{X}} p(x)log \frac{p(x)}{u(x)}=\sum_{x \in \mathcal{X}} p(x)\log p(x)-\sum_{x \in \mathcal{X}} p(x)log\frac{1}{\left| \mathcal{X} \right|}
D(p∣∣u)=∑x∈Xp(x)logu(x)p(x)=∑x∈Xp(x)logp(x)−∑x∈Xp(x)log∣X∣1
=
l
o
g
∣
X
∣
∑
x
∈
X
p
(
x
)
−
(
−
∑
x
∈
X
p
(
x
)
log
p
(
x
)
)
=
l
o
g
∣
X
∣
−
H
(
X
)
≥
0
= log \left| \mathcal{X} \right| \sum_{x \in \mathcal{X}} p(x)- \left( -\sum_{x \in \mathcal{X}} p(x)\log p(x) \right)=log \left| \mathcal{X} \right| -H(X) \geq 0
=log∣X∣∑x∈Xp(x)−(−∑x∈Xp(x)logp(x))=log∣X∣−H(X)≥0
从而有
H
(
X
)
≤
l
o
g
∣
X
∣
H(X) \leq log \left| \mathcal{X} \right|
H(X)≤log∣X∣
熵的最值性,给我们的启示是,如果一个随机系统它是均匀分布的,那么要对其进行编码,则需要的编码长度最大。
e. 熵的凹性
设随机变量
X
1
,
X
2
X_{1},X_{2}
X1,X2 的取值来自于集合
X
\mathcal{X}
X ,且它们的分布函数分别为
p
1
(
x
)
p_{1}(x)
p1(x) 、
p
2
(
x
)
p_{2}(x)
p2(x) ,对于随机变量
θ
\theta
θ ,其分布为:
θ
=
{
1
,
概
率
为
λ
2
,
概
率
为
1
−
λ
\theta = \begin{cases} 1, &概率为\lambda \\ 2, & 概率为1-\lambda \end{cases}
θ={1,2,概率为λ概率为1−λ
取随机变量
Z
=
X
θ
Z=X_{\theta}
Z=Xθ,容易知道其分布为:
Z
=
λ
p
1
(
x
)
+
(
1
−
λ
)
p
2
(
x
)
Z=\lambda p_{1}(x)+(1-\lambda)p_{2}(x)
Z=λp1(x)+(1−λ)p2(x)
利用熵的条件减少性有:
H
(
Z
)
≥
H
(
Z
∣
θ
)
H(Z) \geq H(Z|\theta)
H(Z)≥H(Z∣θ)
即
H
(
λ
p
1
+
(
1
−
λ
)
p
2
)
≥
λ
H
(
p
1
)
+
(
1
−
λ
)
H
(
p
2
)
H(\lambda p_{1}+(1-\lambda)p_{2}) \geq \lambda H(p_{1})+(1-\lambda)H\left(p_{2}\right)
H(λp1+(1−λ)p2)≥λH(p1)+(1−λ)H(p2)
故证明了熵的凹性。由于熵有了凹性,故可以对熵函数进行优化。