文章目录
1信息熵
系统越有序,信息熵越低(越可能发生的事情发生,信息量越低,不太可能的事情发生,才能搞个大新闻)
所以X=[0,1,0],H(X)=0
X=[0.2,0.2,0.6],H(X)=0.95
H
(
X
)
=
−
∑
i
=
1
n
p
(
x
i
)
log
p
(
x
i
)
H(X) = - \sum\limits_{i = 1}^n {p({x_i})\log p({x_i})}
H(X)=−i=1∑np(xi)logp(xi)
2相对熵(KL散度)
相对熵可以衡量两个随机分布之间的差异性
分布相同,相对熵为0;分布有较大差别,相对熵增加
D
(
p
∥
q
)
=
∑
i
=
1
n
p
(
x
)
log
p
(
x
)
q
(
x
)
D(p\parallel q) = \sum\limits_{i = 1}^n {p(x)\log \frac{{p(x)}}{{q(x)}}}
D(p∥q)=i=1∑np(x)logq(x)p(x)
所以为了让我们预测的分布与实际分布相近,我们应该minimize D(p||q)
3交叉熵
相对熵展开
D ( p ∥ q ) = ∑ i = 1 n p ( x ) log p ( x ) q ( x ) = ∑ i = 1 n p ( x ) log p ( x ) − ∑ i = 1 n p ( x ) log q ( x ) = − H ( p ) − ∑ i = 1 n p ( x ) log q ( x ) \begin{aligned} D(p \| q) &=\sum_{i=1}^{n} p(x) \log \frac{p(x)}{q(x)} \\ &=\sum_{i=1}^{n} p(x) \log p(x)-\sum_{i=1}^{n} p(x) \log q(x) \\ &=-H(p)-\sum_{i=1}^{n} p(x) \log q(x) \end{aligned} D(p∥q)=i=1∑np(x)logq(x)p(x)=i=1∑np(x)logp(x)−i=1∑np(x)logq(x)=−H(p)−i=1∑np(x)logq(x)
若p是真实分布,q是预测分布,所以为了降低D(p||q),其中H(p)固定,则降低后一部分,交叉熵H(p,q)为后一部分
H
(
p
,
q
)
=
−
∑
i
=
1
n
p
(
x
)
log
q
(
x
)
H(p,q) = - \sum\limits_{i = 1}^n {p(x)\log q(x)}
H(p,q)=−i=1∑np(x)logq(x)
实际分类任务中,y是真实分布,one-hot编码,y_hat是预测分布,经由softmax产生
C
E
(
y
,
y
^
)
=
−
∑
y
i
log
y
^
i
CE({\bf{y}},{\bf{\hat y}}) = - \sum {{y_i}\log {{\hat y}_i}}
CE(y,y^)=−∑yilogy^i
且有
y ^ = softmax ( θ ) ∂ C E ∂ θ = y ^ − y \begin{aligned} \hat{\mathbf{y}} &=\operatorname{softmax}(\boldsymbol{\theta}) \\ \frac{\partial C E}{\partial \boldsymbol{\theta}} &=\hat{\mathbf{y}}-\mathbf{y} \end{aligned} y^∂θ∂CE=softmax(θ)=y^−y