定义
所谓KL散度,是指当某分布q(x)被用于近似p(x)时的信息损失。
也就是说,q(x)能在多大程度上表达p(x)所包含的信息,KL散度越大,表达效果越差。
- 信息熵
KL散度来源于信息论,信息论的目的是以信息含量来度量数据。信息论的核心概念是信息熵(Entropy),使用H来表示。概率论中概率分布所含的信息量同样可以使用信息熵来度量。
如果式中的log以2为底的话,我们可以将这个式子解释为:要花费至少多少位的编码来表示此概率分布。从此式也可以看出,信息熵的本质是一种期望。
- KL散度的由来
当我们使用一个较简单、常见的分布(如均匀分布、二项分布等)来拟合我们观察到的一个较为复杂的分布时,由于拟合出的分布与观察到的分布并不一致,会有信息损失的情况出现。KL散度就是为了度量这种损失而被提出的。
若我们使用分布q来表示分布p,那么信息熵的损失如下
可将该式写作期望的形式
稍加变形,称为定义中的形式
参考文献
https://zhuanlan.zhihu.com/p/95687720
Kullback–Leibler KL Divergence
Kullback-Leibler Divergence Explained — Count Bayesie