概率公式、条件熵、交叉熵、相对熵、互信息

最新推荐文章于 2024-06-09 10:03:16 发布

转载最新推荐文章于 2024-06-09 10:03:16 发布 · 1.2k 阅读

6 ·

CC 4.0 BY-SA版权

原文链接：https://blog.youkuaiyun.com/Hearthougan/article/details/77879784

文章标签：

#相对熵 #互信息 #交叉熵 #条件熵 #信息熵

机器学习数学原理专栏收录该内容

15 篇文章

订阅专栏

本文深入探讨概率论核心公式，如条件概率、全概率及贝叶斯公式，并解析信息论关键概念，涵盖信息熵、条件熵、交叉熵、相对熵（KL散度）与互信息，揭示其数学本质与应用价值。

搞清概念是学习的重点工作，其实知识就是由一个又一个宝贵的概念堆叠出来的。

概率公式

条件概率： $P(A|B)=\frac{P(A,B)}{P(B)}$
全概率公式： $P(A)=\sum_{B_i}P(A,B_i)=\sum_{B_i}P(A|B_i)P(B_i)$ 仔细体会其中的构成关系，对于固定 $A$ 事件的所有 $P(A,B_i)$ 构成了 $P (A)$ 。你可能会说：那也许有可能存在 $P(A,C_i)$ 。这么想不奇怪，但是这里的 $B_i$ 包含了除 $A$ 以外的任何事件，包括所谓的 $C_i、D_i$ 等情况。
贝叶斯（Bayes）公式： $P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_{B_j}P(A|B_j)P(B_j)}$

熵之 [一.信息熵、二.条件熵、三.交叉熵、四.相对熵（KL散度）、五.互信息]

一.信息熵

声明：详情还需细看一篇精彩的博客： https://blog.youkuaiyun.com/Hearthougan/article/details/76192381。
尊重原创好文，下面是我取一瓢饮进行的记录。

信息量
欲谈信息熵，那必须从信息量说起。何为“信息量”？
简言之，狭义来说，信息量是在随机事件 $X$ 中表达某一个具体事件 $x_i$ 需要花费的信息的多少，单位是比特。
信息熵
对信息量求期望，我们给这个期望一个名字，就是信息熵。
如何抽象成数学模型呢？

1)信息量：随机变量取某个值时，其概率倒数的对数就是信息量 $I_i=\log_2\frac{1}{p_i}=-\log_2\left(p_i\right)$ 其中底数可以是2，单位是比特，底数也可以是其他，单位也相应不同。

2)信息熵：信息量的期望 $H(X)=-\sum^n_{i=1}p_i\log_2p_i$

二. 条件熵

定义：条件熵 $H (Y ∣ X)$ 表示在随机变量 $X$ 已知的条件下，随机变量 $Y$ 的不确定性，数学公式为： $H(Y|X)=\sum^n_{i=1}p(x_i)H(Y|X=x_i)\tag{2.1}$ ，可以从集合的角度辅助理解。

下面进行条件熵公式的推导 $\begin{aligned} H(Y|X)&=H(X,Y)-H(X)\\ &=-\sum_{x,\ y}p(x,y)\log p(x,y)+\sum_x p(x)\log p(x)\\ &=-\sum_{x,\ y}p(x,y)\log p(x,y)+\sum_x\left(\sum_y p(x,y)\right)\log p(x)\\ &=-\sum_{x,\ y}p(x,y)\log p(x,y)+\sum_{x,\ y}p(x,y)\log p(x)\\ &=-\sum_{x,\ y}p(x,y)\log \frac{p(x,y)}{p(x)}\\ &=-\sum_{x,\ y}p(x,y)\log p(y|x)\\ &=H(Y|X) \end{aligned}$ 如果继续化简就可以得到我们式(2.1)定义的条件熵公式 $\begin{aligned} H(Y|X)&=-\sum_{x,\ y}p(x,y)\log p(y|x)\\ &=-\sum_x\sum_yp(y|x)p(x)\log p(y|x)\\ &=-\sum_x p(x)\sum_y p(y|x)\log p(y|x)\\ &=\sum_x p(x)H(Y|X=x) \end{aligned}$ 证毕。
为什么要证明呢，主要目的是要熟练掌握概率公式、深入理解概率公式。

三. 交叉熵

详细请参考：https://blog.youkuaiyun.com/Hearthougan/article/details/77879784
假设有这样一个样本集， $p$ 为它的真实分布， $q$ 为它的估计分布。

如果按照真实分布 $p$ 来度量表达一个样本的信息量，所需要的平均编码长度的期望为：（如果对编码长度不了解的，请看优秀博主的博文（我只是搬运工）：http://blog.youkuaiyun.com/hearthougan/article/details/77774948） $H(p)=-\sum_i p_i\log p_i$ 这里是假设编码采用二叉树进行的。
如果使用估计的分布 $q$ 计算来自真实分布 $p$ 的平均编码长度，则每一个随机变量的信息量为 $log q_i$ ，而我们编码的样本的真实的分布是 $p$ ，因此花费的平均编码长度： $H(p,q)=-\sum_i p_i\log q_i$ 这就是交叉熵的定义，有 $p$ 有 $q$ ，所以是交叉。交叉熵可以这么理解：用估计的分布对来自真实分布的样本进行编码所需要的平均长度。

根据吉布斯不等式，交叉熵要大于等于真实分布的信息熵（最优编码），集体描述为：对于样本服从分布 $P=\{p_1,p_2,\cdots,p_n\}$ ，其他任何一个概率分布 $Q=\{q_1,q_2,\cdots,q_n\}$ ，都有 $-\sum_i p_i\log p_i\leq -\sum_i p_i\log q_i$ ，当且仅当 $p_i=q_i,i=1,2,\cdots,n$ 时，等号成立。

下面进行证明：

方法一：泰勒展开证明。我们知道， $log_ax$ 是凹函数，因为其二阶导函数 $-\frac{1}{x^2\ln a}<0$ ，因此其上每一点的切线都是全局上估计，即切线上的每一点的函数值都要大于等于该对数函数值，当且仅当在切点出函数值相等。因此对 $log_ax$ 在 $x = 1$ 点进行泰勒展开，就会有 $\log_ax\leq\frac{1}{\ln a}(x-1)$ 构造函数 $F (p, q)$ $\begin{aligned} F(p,q)&=\sum_i p_i\log_a\left(\frac{p_i}{q_i}\right)\\ &=-\sum_i p_i\log_a\left(\frac{q_i}{p_i}\right)\\ &\geq -\frac{1}{\ln a}\sum_i p_i\left(\frac{q_i}{p_i}-1\right)\\ &=\frac{1}{\ln a}\sum_i(p_i-q_i)\\ &=\frac{1}{\ln a}\left(\sum_i p_i-\sum_i q_i\right)\\ &=0 \end{aligned}$ 故有 $\sum_i p_i\log p_i-\sum_i p_i\log q_i\geq0$ 所以吉布斯不等式成立。
方法二：Jensen不等式。Jensen不等式是说，如果在凸集定义域内，如果 $f (x)$ 是凸函数，则有 ${\rm E}f(x)\geq f\left({\rm E}(x)\right)$ 这里我们不妨把 $log_a x$ 看成是 $x > 0$ 时的凸函数。则有： $\begin{aligned}{\rm E}f\left(\frac{q_i}{p_i}\right)&=-\sum_i p_i \log_a\left(\frac{q_i}{p_i}\right)\\ &\geq f\left({\rm E}\left(\frac{q_i}{p_i}\right)\right)\\ &=-\log_a\left(\sum_i p_i\left(\frac{q_i}{p_i}\right)\right)\\ &=-\log_a\left(\sum_i q_i\right)\\ &=0 \end{aligned}$ 同样证明了吉布斯不等式的成立。

五. 相对熵（KL散度）

由交叉熵可知，用估计的概率分布所计算的交叉熵产生的编码长度，比基于真实分布所计算的信息熵的编码长，但是长多少呢？这个就需要另一个度量，相对熵，也称KL散度。 $D(p||q)=H(p,q)-H(p)=-\sum^n_{i=1}p_i\log(q_i)-\left(-\sum^n_{i=1}p_i\log(p_i)\right)=\sum^n_{i=1}p_i\log\frac{p_i}{q_i}$ 相对熵：用估计的概率分布 $q$ 计算的交叉熵减去真实分布 $p$ 的信息熵，含义为：用估计分布计算的平均编码长度比最短平均编码长度长多少。因此有：
$交叉熵 = 信息熵 + 相对熵$ 前面已经证明 $D(p||q)=\sum^n_{i=1}p_i\log\frac{p_i}{q_i}\geq0$ 因此，相对熵始终是大于等于0的。

六. 互信息

两个随机变量 $X, Y$ 的互信息，定义为： $X, Y$ 的联合分布 $P (X, Y)$ 与边缘分布的乘积 $P (X) P (Y)$ 的相对熵： $\begin{aligned}I(X,Y)&=D\left(P(X,Y)||P(X)P(Y)\right)\\ &=\sum_{x,\ y}p(x,y)\log\frac{p(x,y)}{p(x)p(y)} \end{aligned}$ 怎么看待呢？也就是用边缘分布乘积 $P (X) P (Y)$ 的交叉熵，减去联合分布 $P (X, Y)$ 的信息熵，就是互信息。
另外一种定义： $I (X, Y) = H (X) - H (X ∣ Y)$

下面证明两种定义等价：
$\begin{aligned} I(X,Y)&=H(X)-H(X|Y)\\ &=H(X)+H(Y)-H(X,Y)\\ &=\sum_x p(x)\log\frac{1}{p(x)}+\sum_y p(y)\log\frac{1}{p(y)}+\sum_{x,\ y}p(x,y)\log p(x,y)\\ &=\sum_x\left(\sum_y p(x,y)\right)\log\frac{1}{p(x)}+\sum_y\left(\sum_x p(x,y)\right)\log\frac{1}{p(y)}+\sum_{x,\ y}p(x,y)\log p(x,y)\\ &=\sum_{x,\ y}p(x,y)\log\frac{1}{p(x)}+\sum_{x,\ y}p(x,y)\log\frac{1}{p(y)}+\sum_{x,\ y}p(x,y)\log p(x,y)\\ &=\sum_{x,\ y}p(x,y)\log\frac{p(x,y)}{p(x)p(y)} \end{aligned}$