前言
相对熵(Relative Entropy)与交叉熵(Cross Entropy)二者经常出现在深度学习的公式与算法中,本文介绍二者的计算以及之间的区别。
关于熵
熵是衡量信息量的物理量,在决策树算法中涉及到的信息熵、信息增益、信息增益率等都与此相关,详细可参见
这篇文章。
相对熵
相对熵(relative entropy)又称为KL散度(Kullback-Leibler divergence),KL距离,是两个随机分布间距离的度量。记为DKL(p||q)。它度量当真实分布为p时,假设分布q的无效性。
并且为了保证连续性,做如下约定:
显然,当p=q时,两者之间的相对熵DKL(p||q)=0
上式最后的Hp(q)表示在p分布下,使用q进行编码需要的bit数,而H(p)表示
上式最后的Hp(q)表示在p分布下,使用q进行编码需要的bit数,而H(p)表示