KL散度的理解

最新推荐文章于 2025-05-17 16:27:05 发布

原创最新推荐文章于 2025-05-17 16:27:05 发布 · 3.5w 阅读

70 ·

CC 4.0 BY-SA版权

文章标签：

#数学 #KL散度 #深度学习中的数学

笔记-数学专栏收录该内容

4 篇文章

订阅专栏

原文地址Count Bayesie
这篇文章是博客Count Bayesie上的文章Kullback-Leibler Divergence Explained 的学习笔记，原文对 KL散度 的概念诠释得非常清晰易懂，建议阅读

KL散度( KL divergence)

全称：Kullback-Leibler Divergence
用途：比较两个概率分布的接近程度
在统计应用中，我们经常需要用一个简单的，近似的概率分布 $f^*$ 来描述
观察数据 $D$ 或者另一个复杂的概率分布 $f$ 。这个时候，我们需要一个量来衡量我们选择的近似分布 $f^*$ 相比原分布 $f$ 究竟损失了多少信息量，这就是KL散度起作用的地方。

熵（entropy）

想要考察 信息量 的损失，就要先确定一个描述信息量的量纲。
在信息论这门学科中，一个很重要的目标就是量化描述数据中含有多少信息。
为此，提出了熵的概念，记作 $H$
一个概率分布所对应的熵表达如下：

H = - \sum i = 1 N p (x i) \cdot log p (x i)

$H=-\sum_{i=1}^Np(x_i)\cdot\log{p(x_i)}$
如果我们使用

log2 $\log{2}$ 作为底，熵可以被理解为：我们编码所有信息所需要的最小位数(minimum numbers of bits)
需要注意的是：通过计算熵，我们可以知道信息编码需要的最小位数，却不能确定最佳的数据压缩策略。怎样选择最优数据压缩策略，使得数据存储位数与熵计算的位数相同，达到最优压缩，是另一个庞大的课题。

KL散度的计算

现在，我们能够量化数据中的信息量了，就可以来衡量近似分布带来的信息损失了。
KL散度的计算公式其实是熵计算公式的简单变形,在原有概率分布 $p$ 上，加入我们的近似概率分布 $q$ ，计算他们的每个取值对应对数的差：

D K L (p | | q) = \sum i = 1 N p (x i) \cdot (log p (x i) - log q (x i))

$D_KL(p||q)=\sum_{i=1}^Np(x_i)\cdot(\log{p(x_i)}-\log{q(x_i)})$
换句话说，KL散度计算的就是数据的原分布与近似分布的概率的对数差的期望值。
在对数以2为底时，

log2 $\log 2$ ，可以理解为“我们损失了多少位的信息”
写成期望形式

D K L (p | | q) = E [log p (x) - log (q (x)]

$D_KL(p||q)=E[\log{p(x)}-\log{(q(x)}]$
更常见的是以下形式：

D K L (p | | q) = \sum i = 1 N p (x i) \cdot log p ( x i ） q ( x i )

$D_KL(p||q)=\sum_{i=1}^Np(x_i)\cdot\log{\frac{p(x_i）}{q(x_i)}}$
现在，我们就可以使用KL散度衡量我们选择的近似分布与数据原分布有多大差异了。

散度不是距离

D K L (p | | q) \neq D K L (q | | p)

$D_KL(p||q)\neq D_KL(q||p)$
因为KL散度不具有交换性，所以不能理解为“距离”的概念，衡量的并不是两个分布在空间中的远近，更准确的理解还是衡量一个分布相比另一个分布的信息损失(infomation lost)

使用KL散度进行优化

通过不断改变预估分布的参数，我们可以得到不同的KL散度的值。
在某个变化范围内，KL散度取到最小值的时候，对应的参数是我们想要的最优参数。
这就是使用KL散度优化的过程。

VAE(变分自动编码)

神经网络进行的工作很大程度上就是“函数的近似”(function approximators)
所以我们可以使用神经网络学习很多复杂函数，学习过程的关键就是设定一个目标函数来衡量学习效果。
也就是通过最小化目标函数的损失来训练网络(minimizing the loss of the objective function)
使用KL散度来最小化我们近似分布时的信息损失，让我们的网络可以学习很多复杂分布。
一个典型应用是VAE
Tutorial on VAE