机器学习笔记：各种熵

最新推荐文章于 2021-10-22 10:35:32 发布

原创最新推荐文章于 2021-10-22 10:35:32 发布 · 522 阅读

0 ·

CC 4.0 BY-SA版权

python 同时被 2 个专栏收录

8 篇文章

订阅专栏

机器学习

2 篇文章

订阅专栏

本文概述了机器学习中熵的概念，包括信息量、信息熵、条件熵、相对熵（KL散度）和交叉熵，以及JS散度。介绍了这些熵在描述分布关系、不确定性以及损失函数中的作用。

在机器学习中通常会使用各种熵来描述分布与分布之间的关系，如条件熵和交叉熵等，也有直接优化熵的模型，如最大熵模型。
这篇文章简单总结一下之前见到过的一些熵相关的概念。

信息量

定义

假设有离散随机变量 $X$ 满足分布 $P(X = x_{i}) = p_{i}$ ，定义事件 $X = x_{i}$ 的信息量为
$I(x_{i}) = -log(p_{i})$

性质

取值范围在 [0, +∞) 区间内
顾名思义，一个事件的信息量可以直观的理解为事件发生给人带来的信息多少。由定义可以看出当事件发生概率越小时，信息量越大。

信息熵

定义

信息熵用于描述随机变量 $X$ ，定义信息熵为信息量的期望值
$E_{x \sim P}[I(x)] = -\sum_{i = 1}^{n}{p_{i} log(p_{i})}$

性质

取值范围在 [0, log(n)] 区间内
信息熵描述了随机变量的不确定性，当所有事件等可能地发生时，信息熵取得最大值
同样的可以定义联合分布 $P (X, Y)$ 和条件分布 $P(X | Y = y_{i})$ 的信息熵

条件熵

定义

假设有离散随机变量 $X$ 和 $Y$ 满足联合分布 $P(X = x_{i}, Y = y_{i}) = p_{ij}$ ，记边缘分布 $P(X = x_{i}) = p_{i}$ ，定义条件熵为
$-\sum_{i = 1}^{n}{p_{i}H(Y | X = x_{i})}$

性质

可以证明 $H (Y ∣ X) = H (X, Y) - H (X)$
$-\sum_{x}{p(x) H(Y|X=x)} \\ = -\sum_{x}{p(x) \sum_{y}{p(y|x) log(p(y|x))}} \\ = -\sum_{x}{\sum_{y}{p(x, y) log(p(y|x))}} \\ = -\sum_{x}{\sum_{y}{p(x, y) [log(p(y|x) p(x)) - log(p(x))]}} \\ = -\sum_{x}{\sum_{y}{p(x, y) log(p(y|x) p(x))}} + \sum_{x}{\sum_{y}{p(x, y) log(p(x))}} \\ = -\sum_{x}{\sum_{y}{p(x, y) log(p(y|x) p(x))}} + \sum_{x}{p(x) log(p(x))} \\ = H(X, Y) - H(X)$
条件熵描述了在 $X$ 已知的情况下， $Y$ 的信息熵

相对熵

定义

相对熵又称KL散度（KL divergence）。假设有离散的随机变量 $X$ ，和定义在 $X$ 上的两个分布 $P(X = x_{i}) = p_{i}$ 和 $Q(X = x_{i}) = q_{i}$ ，定义相对熵为
$D_{KL}(p || q) = \sum_{i = 1}^{n}{p_{i} log(\frac{p_{i}}{q_{i}})}$

性质

KL散度通常用来描述两个分布之间的差异或距离。当两个分布越接近，则KL散度越小，因此在GAN的论文中，KL散度被用来衡量生成器生成的样本分布与真实样本分布之间的差异。
但是KL散度却不满足距离的对称性，即 $DKL(p∣∣q)≠DKL(q∣∣p)D_{KL}(p || q) \neq D_{KL}(q || p)$

交叉熵

定义

假设有离散的随机变量 $X$ ，和定义在 $X$ 上的两个分布 $P(X = x_{i}) = p_{i}$ 和 $Q(X = x_{i}) = q_{i}$ ，定义交叉熵为
$-\sum_{i = 1}^{n}{p_{i} log(q_{i})}$

性质

可以证明 $H(p, q) = H(p) - D_{KL}(p || q)$
注意交叉熵是定义在一个随机变量的两个分布上的，和信息熵 $H (X, Y)$ 有区别
交叉熵定义了使用分布 $Q$ 拟合分布 $P$ 时的损失，在机器学习中使用的交叉熵损失函数就是将预测分布和真实数据分布的交叉熵来作为损失函数的