1、随机变量的熵:
对于离散随机变量服从
,其概率为
,其熵定义为Entropy(x):
|
1注:
(1)、熵用来表达所有信息量的期望;
(2)、信息熵越大,包含的信息就越多,那么随机变量的不确定性就越大。
2、连续变量的熵:
对于连续变量x服从P(x)概率分布,其熵定义为Entropy(x):
|
3、随机变量的相对熵
3.1、离散概率分布的相对熵(KL散度):
|
3.1、连续概率分布的相对熵(KL散度):
|
3注:
(1)、散度可以描述2个概率分布的差异,即是两个分布之间的距离,两个分布越接近,KL散度值就越小;反之,如果越远,KL散度值就越大。
(2)、KL散度的值是非负的,即。
4、交叉熵
4.1、离散分布的交叉熵:
|
4.2、连续分布的交叉熵:
|
注:
交叉熵的由来:因为散度
又因为p(x)logp(x)不变,所以:
于是:交叉熵定义为 -∑p(x)log[q(x)]。
参考:
[1].深入浅出深度学习——原理剖析于Python实践,黄安阜
[2].机器学习,周志华
[3].统计学习方法,李航