本文用一种浅显易懂的方式说明KL散度。
参考资料
KL散度本质上是比较两个分布的相似程度。
现在给出2个简单的离散分布,称为分布1和分布2.
分布1有3个样本,
其中A的概率为50%, B的概率为40%,C的概率为10%
分布2也有3个样本:
其中A的概率为50%,B的概率为10%,C的概率为40%。
现在想比较分布1和分布2的相似程度。
直观看上去分布1和分布2中样本A的概率是一样的,仅仅B和C的概率换了一下。
分布应该是相似的,但是如何量化来看呢。
可以这样做,用分布1的各个样本的概率和分布2样本概率做比值,相加再求平均。
现假设分布1的概率分布为P,分布2的概率分布为Q,
那么P(A) = 0.5, P(B)=0.4, P( C) = 0.1
Q(A) = 0.5, Q(B) = 0.1, Q( C) = 0.4,
各样本概率做比值之后为:
P(A)/Q(A) + P(B)/Q(B) + P( C)/Q( C) = 1+4+1/4
再对3个样本取平均: (1+4+1/4) / 3 = 1.75
这就是我们想要的分布1和分布2的相似度。
不过有一个问题,
可以看到P(B)和Q(B), P( C)和Q( C)仅仅概率做了交换,它们的相似度大小应该是一样的(仅仅方向不一样),
也就是说P(B)/Q(B), P( C)/Q( C)的绝对值应该是一样的,符号不一样。
但是现在,哪个分子大哪个结果就大,这是不应该的,
想要这样一个函数来解决这个问题,
f(4) = y
f(1/4) = -y,
这里的4为P(B)/Q(B), 1/4为P( C)/Q( C),
经过f(x)后得到的应该是同样的相似度大小,只是方向不一样,一个是变大的方向,一个是变小的方向,用负号表示方向的不同。
那么什么样的函数能满足f(x)呢,
可以取几个值画一下,你会发现,这个f(x)就是log(x)。
那么现在把刚才的相似度修改一下,
把简单的P(x)/Q(x)换成log(P(x) / Q(x)).
于是变为: ∑ 1 n l o g P ( x ) Q ( x ) / n \sum_{1}^{n} log\frac{P(x)}{Q(x)} / n 1∑

本文通过实例介绍KL散度,一种衡量两个概率分布相似程度的方法,通过log函数调整概率比值,确保了即使在概率交换时也能得到相同相似度。KL散度公式展示了如何计算分布P与参考分布Q的差异。
最低0.47元/天 解锁文章
569

被折叠的 条评论
为什么被折叠?



