信 息 量 → 信 息 熵 → 交 叉 熵 → K L 散 度 → J S 散 度 信息量\to信息熵\to交叉熵\to KL散度\to JS散度 信息量→信息熵→交叉熵→KL散度→JS散度
信息量
− log p ( x ) = log 1 p ( x ) -\log p(x)=\log \frac{1}{p(x)} −logp(x)=logp(x)1
信息熵
H ( p ) = H ( x ) = E x p ( x ) [ − log p ( x ) ] = − ∫ p ( x ) log p ( x ) d x 或 ∑ p ( x ) log 1 p ( x ) H(p)=H(x)=E_{x~p(x)}[-\log p(x)]=-\int p(x)\log p(x)dx或\sum p(x)\log\frac{1}{p(x)} H(p)=H(x)=Ex p(x)[−logp(x)]=−∫p(x)logp(x)dx或∑p(x)logp(x)1
交叉熵
H ( p , q ) = − ∫ p ( x ) log q ( x ) d x 或 ∑ p ( x ) log 1 q ( x ) H(p,q)=-\int p(x)\log q(x)dx或\sum p(x)\log \frac{1}{q(x)} H(p,q)=−∫p(x)logq(x)dx或∑p(x)logq(x)1
KL散度
H
(
p
)
−
H
(
p
,
q
)
=
−
∫
p
(
x
)
log
p
(
x
)
d
x
−
(
−
∫
p
(
x
)
log
q
(
x
)
d
x
)
H(p)-H(p,q)=-\int p(x)\log p(x)dx-(-\int p(x)\log q(x)dx)
H(p)−H(p,q)=−∫p(x)logp(x)dx−(−∫p(x)logq(x)dx)
或
K
L
(
p
∣
∣
q
)
=
∑
p
(
x
)
log
p
(
x
)
q
(
x
)
KL(p||q)=\sum p(x)\log\frac{p(x)}{q(x)}
KL(p∣∣q)=∑p(x)logq(x)p(x)
JS散度
J S ( p ∣ ∣ q ) = 1 2 K L ( p ( x ) ∣ ∣ p ( x ) + q ( x ) 2 + 1 2 K L ( q ( x ) ∣ ∣ p ( x ) + q ( x ) 2 ) JS(p||q)=\frac{1}{2}KL(p(x)||\frac{p(x)+q(x)}{2}+\frac{1}{2}KL(q(x)||\frac{p(x)+q(x)}{2}) JS(p∣∣q)=21KL(p(x)∣∣2p(x)+q(x)+21KL(q(x)∣∣2p(x)+q(x))
信息量代表的是一种不确定性;信息熵代表的是不确定性的期望值;KL散度,JS散度,交叉熵都可以用来衡量两个概率分布之间的差异性。
参考:
https://blog.youkuaiyun.com/neil3611244/article/details/82829103
码字不易,如果您觉得有帮助,麻烦帮我点个赞~~