刚刚查了点资料,算是搞清楚了相对熵与互信息之间的关系。在这里记录一下,后面忘记的话可以方便查阅。
首先,同一个意思的概念太多也是我开始搞混这些概念的原因之一。
首先说一下编码问题:
最短的平均编码长度 = 信源的不确定程度 / 传输的表达能力。
其中信源的不确定程度,用信源的熵来表示,又称之为被表达者,传输的表达能力,称之为表达者表达能力,如果传输时有两种可能,那表达能力就是 l o g 2 2 = 1 log_{2}^{2}=1 log22=1,如果是传输时有三种可能,那表达能力就是 l o g 2 3 log_2^3 log23。
交叉熵
假设有这样一个样本集,p为它的真实分布,q为它的估计分布。如果按照真实分布p来度量识别一个样本所需要的编码长度的期望为:
如果使用估计的分布q来表示来自真实分布p的平均编码长度,则下面表达式就是交叉熵: