离散熵
熵的定义:
H
(
X
)
=
−
∑
1
N
p
n
l
o
g
p
n
H(X)=-\sum^N_1 p_n log p_n
H(X)=−∑1Npnlogpn
熵可以作为信息的量度:通过随机试验,我们获得了信息,且该信息的数量恰好等于随机变量的熵。
熵函数的性质:
1、香农熵是概率矢量的非负上凸函数
2、对于离散随机变量,当其可能取值等概分布时,其熵达到最大值,即
m
a
x
H
(
X
)
=
l
o
g
N
maxH(X)=logN
maxH(X)=logN
熵的单位:以2为底bit,以e为底nat,以10为底Hartley
联合熵与条件熵
联合熵:
H
(
X
Y
)
=
−
∑
k
=
1
K
∑
j
=
1
J
p
(
a
k
,
b
j
)
log
p
(
a
k
,
b
j
)
H(XY)=-\sum_{k=1}^K \sum_{j=1}^J p(a_k,b_j)\log p(a_k,b_j)
H(XY)=−∑k=1K∑j=1Jp(ak,bj)logp(ak,bj)
条件熵:
H
(
Y
∣
X
)
=
−
∑
k
=
1
K
∑
j
=
1
J
p
(
a
k
,
b
j
)
log
p
(
b
j
∣
a
k
)
H(Y|X)=-\sum_{k=1}^{K}\sum_{j=1}^J p(a_k,b_j) \log p(b_j|a_k)
H(Y∣X)=−∑k=1K∑j=1Jp(ak,bj)logp(bj∣ak)
联合熵和条件熵的关系:
H
(
X
Y
)
=
H
(
Y
)
+
H
(
X
∣
Y
)
=
H
(
X
)
+
H
(
Y
∣
X
)
H(XY)=H(Y)+H(X|Y)=H(X)+H(Y|X)
H(XY)=H(Y)+H(X∣Y)=H(X)+H(Y∣X)
H
(
X
Y
)
⩽
H
(
X
)
+
H
(
Y
)
H(XY)\leqslant H(X)+H(Y)
H(XY)⩽H(X)+H(Y)
H
(
X
∣
Y
)
⩽
H
(
X
)
H(X|Y)\leqslant H(X)
H(X∣Y)⩽H(X)
H
(
Y
∣
X
)
⩽
H
(
Y
)
H(Y|X)\leqslant H(Y)
H(Y∣X)⩽H(Y)
条件熵在一般情形下总是小于无条件熵。当随机变量X和Y独立时,条件熵和无条件熵相等。
离散互信息
互信息的定义
已知Y的取值后所提供的有关X的信息
I
(
X
;
Y
)
=
H
(
X
)
−
H
(
X
∣
Y
)
I(X;Y)=H(X)-H(X|Y)
I(X;Y)=H(X)−H(X∣Y)
I
(
Y
;
X
)
=
H
(
Y
)
−
H
(
Y
∣
X
)
I(Y;X)=H(Y)-H(Y|X)
I(Y;X)=H(Y)−H(Y∣X)
I
(
X
;
Y
)
=
∑
k
=
1
K
∑
j
=
1
J
p
(
a
k
,
b
j
)
l
o
g
p
(
a
k
,
b
j
)
p
(
a
k
)
p
(
b
j
)
I(X;Y)=\sum_{k=1}^K\sum_{j=1}^J p(a_k,b_j) log\frac{p(a_k,b_j)}{p(a_k)p(b_j)}
I(X;Y)=∑k=1K∑j=1Jp(ak,bj)logp(ak)p(bj)p(ak,bj)
I
(
X
;
Y
)
=
H
(
X
)
+
H
(
Y
)
−
H
(
X
Y
)
I(X;Y)=H(X)+H(Y)-H(XY)
I(X;Y)=H(X)+H(Y)−H(XY)
一般情况下,互信息的值满足关系式:
0
⩽
I
(
X
;
Y
)
⩽
m
i
n
(
H
(
X
)
,
H
(
Y
)
)
0\leqslant I(X;Y)\leqslant min(H(X),H(Y))
0⩽I(X;Y)⩽min(H(X),H(Y))
互信息是对X和Y之间统计依存程度的信息量度。
多个随机变量下的互信息
1、两组多元随机矢量之间的互信息
I
(
X
;
Y
Z
)
=
H
(
X
)
−
H
(
X
∣
Y
Z
)
=
H
(
Y
Z
)
−
H
(
Y
Z
∣
X
)
=
H
(
X
)
+
H
(
Y
Z
)
−
H
(
X
Y
Z
)
I(X;YZ)=H(X)-H(X|YZ)=H(YZ)-H(YZ|X)=H(X)+H(YZ)-H(XYZ)
I(X;YZ)=H(X)−H(X∣YZ)=H(YZ)−H(YZ∣X)=H(X)+H(YZ)−H(XYZ)
2、条件互信息
I
(
X
;
Y
∣
Z
)
=
∑
k
=
1
K
∑
j
=
1
J
∑
l
=
1
L
p
(
a
k
,
b
j
,
c
l
)
log
p
(
a
k
,
b
j
∣
c
l
)
p
(
a
k
∣
c
l
)
p
(
b
j
∣
c
l
)
I(X;Y|Z)=\sum^K_{k=1}\sum^J_{j=1}\sum^L_{l=1}p(a_k,b_j,c_l)\log\frac{p(a_k,b_j|c_l)}{p(a_k|c_l)p(b_j|c_l)}
I(X;Y∣Z)=∑k=1K∑j=1J∑l=1Lp(ak,bj,cl)logp(ak∣cl)p(bj∣cl)p(ak,bj∣cl)
I
(
X
Y
;
U
V
W
)
=
I
(
X
Y
;
W
)
+
I
(
X
Y
;
V
∣
W
)
+
I
(
X
Y
;
U
∣
V
W
)
I(XY;UVW)=I(XY;W)+I(XY;V|W)+I(XY;U|VW)
I(XY;UVW)=I(XY;W)+I(XY;V∣W)+I(XY;U∣VW)
3、随机矢量中各随机变量相互之间的互信息
I(X;Y;Z)
互信息函数的性质
I
(
X
;
Y
)
=
∑
k
=
1
K
∑
j
=
1
J
p
(
a
k
)
q
(
b
j
∣
a
k
)
l
o
g
q
(
b
j
∣
a
k
)
∑
i
=
1
K
p
(
a
i
)
q
(
b
j
∣
a
i
)
I(X;Y)=\sum_{k=1}^K\sum_{j=1}^J p(a_k)q(b_j|a_k) log\frac{q(b_j|a_k)}{\sum^K_{i=1} p(a_i)q(b_j|a_i)}
I(X;Y)=∑k=1K∑j=1Jp(ak)q(bj∣ak)log∑i=1Kp(ai)q(bj∣ai)q(bj∣ak)
性质:互信息
I
(
p
,
Q
)
I(p,Q)
I(p,Q)是p的上凸函数,是Q的下凸函数
连续随机变量下的熵与互信息
连续随机变量下的微分熵
h
(
X
)
=
−
∫
−
∞
∞
p
(
x
)
log
p
(
x
)
d
x
h(X)=-\int_{-\infty}^{\infty} p(x)\log p(x) dx
h(X)=−∫−∞∞p(x)logp(x)dx
联合微分熵
h
(
X
Y
)
=
−
∫
∫
p
(
x
,
y
)
l
o
g
p
(
x
,
y
)
d
x
d
y
h(XY)=-\int \int p(x,y) log p(x,y) dxdy
h(XY)=−∫∫p(x,y)logp(x,y)dxdy
条件微分熵
h
(
X
∣
Y
)
=
−
∫
∫
p
(
x
,
y
)
l
o
g
p
(
x
∣
y
)
d
x
d
y
h(X|Y)=-\int \int p(x,y) log p(x|y)dxdy
h(X∣Y)=−∫∫p(x,y)logp(x∣y)dxdy
多个随机变量下离散熵之间的一些关系式在连续随机变量下仍然成立,如:
h
(
X
Y
)
=
h
(
X
)
+
h
(
Y
∣
X
)
=
h
(
Y
)
+
h
(
Y
∣
X
)
h(XY)=h(X)+h(Y|X)=h(Y)+h(Y|X)
h(XY)=h(X)+h(Y∣X)=h(Y)+h(Y∣X)
h
(
X
∣
Y
)
⩽
h
(
X
)
h(X|Y)\leqslant h(X)
h(X∣Y)⩽h(X),
h
(
X
Y
)
⩽
h
(
X
)
+
h
(
Y
)
h(XY)\leqslant h(X)+h(Y)
h(XY)⩽h(X)+h(Y)
随机变量函数的微分熵
h
(
U
V
)
=
h
(
X
Y
)
−
∫
∫
p
(
x
,
y
)
log
∣
J
∣
d
x
d
y
h(UV)=h(XY)-\int \int p(x,y) \log|J| dxdy
h(UV)=h(XY)−∫∫p(x,y)log∣J∣dxdy
J
=
J
(
x
,
y
u
,
v
)
J=J(\frac{x,y}{u,v})
J=J(u,vx,y)
连续随机变量下的互信息
I
(
X
,
Y
)
=
∫
∫
p
(
x
,
y
)
log
p
(
x
,
y
)
p
(
x
)
p
(
y
)
d
x
d
y
I(X,Y)=\int \int p(x,y) \log \frac{p(x,y)}{p(x)p(y)} dxdy
I(X,Y)=∫∫p(x,y)logp(x)p(y)p(x,y)dxdy
互信息表示随机变量之间相互提供的信息量。
鉴别信息
1、离散随机变量的情形
设随机变量X的可能取值为
a
1
,
a
2
,
.
.
.
,
a
k
{a_1,a_2,...,a_k}
a1,a2,...,ak,且X的概率分布情况与假设H1和H2有关。
鉴别信息(又称方向散度)为
I
(
p
2
,
p
1
;
X
)
=
∑
k
=
1
K
p
2
(
a
k
)
log
p
2
(
a
k
)
p
1
(
a
k
)
I(p_2,p_1;X)=\sum^K_{k=1}p_2(a_k)\log\frac{p_2(a_k)}{p_1(a_k)}
I(p2,p1;X)=∑k=1Kp2(ak)logp1(ak)p2(ak)
2、连续随机变量
I
(
p
2
,
p
1
;
X
)
=
∫
p
2
(
x
)
log
p
2
(
x
)
p
1
(
x
)
d
x
I(p_2,p_1;X)=\int p_2(x)\log\frac{p_2(x)}{p_1(x)}dx
I(p2,p1;X)=∫p2(x)logp1(x)p2(x)dx
3、多个随机变量
与单个情况类似,把一重求和变为二重求和即可。
鉴别信息的性质
性质1:鉴别信息非负,当且仅当两个概率分布相等时鉴别信息才等于零。
性质2:离散随机变量下的鉴别信息是其宗量的下凸函数。
性质3:多个随机变量的鉴别信息在各随机变量互相独立时等于各随机变量的鉴别信息之和。