1.自信息
对一个随机变量
X
X
X进行编码,概率分布为
P
(
x
)
P(x)
P(x),自信息
I
(
x
)
I(x)
I(x)表示了
X
=
x
X=x
X=x时的信息量:
I
(
x
)
=
−
l
o
g
P
(
x
)
I(x)=-logP(x)
I(x)=−logP(x)
2.熵
熵衡量了随机变量的平均信息量,即自信息的数学期望:
H
(
X
)
=
E
x
(
I
(
X
)
)
=
−
∑
x
∈
X
P
(
x
)
log
P
(
x
)
H(X)=E_{x}(I(X))=-\sum_{x\in X}P(x)\log P(x)
H(X)=Ex(I(X))=−x∈X∑P(x)logP(x)
由上述公式可知,信息越不确定,熵越大。即熵衡量了信息的混乱程度,信息越混乱,熵越大。
对于一个确定的信息,即发生概率为1或0时,熵为0;如果自变量的概率分布是均匀分布,熵最大。
3.联合熵和条件熵
离散随机变量
X
,
Y
X,Y
X,Y的联合概率分布为
P
(
x
,
y
)
P(x,y)
P(x,y),则其联合熵为:
H
(
X
,
Y
)
=
−
∑
x
∈
X
∑
y
∈
Y
P
(
x
,
y
)
log
P
(
x
,
y
)
H(X,Y)=-\sum_{x\in X}\sum_{y\in Y} P(x,y)\log P(x,y)
H(X,Y)=−x∈X∑y∈Y∑P(x,y)logP(x,y)
条件熵衡量了已知
Y
Y
Y的条件下,
X
X
X的不确定程度:
H
(
X
∣
Y
)
=
−
∑
x
∈
X
∑
y
∈
Y
P
(
x
,
y
)
log
P
(
x
∣
y
)
=
−
∑
x
∈
X
∑
y
∈
Y
P
(
x
,
y
)
log
P
(
x
,
y
)
P
(
y
)
=
H
(
X
,
Y
)
−
H
(
Y
)
\begin{aligned} H(X|Y)&=-\sum_{x\in X}\sum_{y\in Y} P(x,y)\log P(x|y)\\ &=-\sum_{x\in X}\sum_{y\in Y} P(x,y)\log \frac{P(x,y)}{P(y)} \\ &=H(X,Y)-H(Y) \end{aligned}
H(X∣Y)=−x∈X∑y∈Y∑P(x,y)logP(x∣y)=−x∈X∑y∈Y∑P(x,y)logP(y)P(x,y)=H(X,Y)−H(Y)
4.互信息
互信息衡量了已知一个变量的条件下,另一个变量的不确定性减少的程度:
I
(
X
,
Y
)
=
−
∑
x
∈
X
∑
y
∈
Y
P
(
x
,
y
)
log
P
(
x
,
y
)
P
(
x
)
P
(
y
)
I(X,Y)=-\sum_{x\in X}\sum_{y\in Y}P(x,y)\log \frac{P(x,y)}{P(x)P(y)}
I(X,Y)=−x∈X∑y∈Y∑P(x,y)logP(x)P(y)P(x,y)
如果
X
X
X和
Y
Y
Y相互独立,即
X
X
X不对
Y
Y
Y提供任何信息,反之亦然,则它们的互信息为零。因此,互信息也可以表示为:
I
(
X
,
Y
)
=
H
(
X
)
−
H
(
X
∣
Y
)
=
H
(
Y
)
−
H
(
Y
∣
X
)
I(X,Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)
I(X,Y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)
5.交叉熵
两个概率分布,
p
(
x
)
p(x)
p(x)为真实分布,
q
(
x
)
q(x)
q(x)为非真实分布,如果用
q
(
x
)
q(x)
q(x)来表示
p
(
x
)
p(x)
p(x)的平均编码长度,则为交叉熵:
H
(
p
,
q
)
=
E
p
(
−
log
q
)
=
−
∑
x
p
(
x
)
log
q
(
x
)
H(p,q)=E_{p}(-\log q)=-\sum_{x}p(x)\log q(x)
H(p,q)=Ep(−logq)=−x∑p(x)logq(x)
在给定
p
p
p的情况下,如果
q
q
q和
p
p
p越接近,它们的交叉熵越小;反之,交叉熵越大。
6.相对熵(KL散度)
相对熵衡量了用非真实概率
q
(
x
)
q(x)
q(x)来近似真实概率
p
(
x
)
p(x)
p(x)时所造成的的信息损失量:
D
K
L
(
p
∣
∣
q
)
=
H
(
p
,
q
)
−
H
(
p
)
=
−
∑
x
p
(
x
)
log
p
(
x
)
q
(
x
)
D_{KL} (p||q)=H(p,q)-H(p)=-\sum_{x}p(x)\log \frac{p(x)}{q(x)}
DKL(p∣∣q)=H(p,q)−H(p)=−x∑p(x)logq(x)p(x)
K
L
KL
KL散度衡量了两个概率分布之间的距离,它是非负的,当p=q时,
D
K
L
(
p
∣
∣
q
)
=
0
D_{KL} (p||q)=0
DKL(p∣∣q)=0。但是它是不对称的。
7.JS散度
J
S
JS
JS散度是一种对称的衡量两个分布相似度的度量方式,定义为 :
D
J
S
(
p
∣
∣
q
)
=
1
2
D
K
L
(
p
∣
∣
m
)
+
1
2
D
K
L
(
q
∣
∣
m
)
m
=
1
2
(
p
+
q
)
D_{JS}(p||q)=\frac{1}{2} D_{KL}(p||m) +\frac{1}{2} D_{KL}(q||m) \\ m=\frac{1}{2} (p+q)
DJS(p∣∣q)=21DKL(p∣∣m)+21DKL(q∣∣m)m=21(p+q)
6万+

被折叠的 条评论
为什么被折叠?



