Reference:
1、(越)范建熊,不等式的秘密 第1卷 第2版
KL散度(Kullback–Leibler divergence)的定义如下:
下面证明上式是非负的。
1、凸函数
连续函数的定义域为
,如果对
内任意两个实数
,
及任意实数
,都有
(1)
则称为
上的凸函数,也称下凸函数。
将上面式(1)的不等号反向,即
(2)
则称为
上的凹函数,也称上凸函数。
上面对于函数凹凸性的定义和同济大学第六版高等数学上的定义不同,同济大学高等数学将式(1)所示函数称为凹函数,将式(2)所示函数称为凸函数。下面将按照上面的定义进行讨论,本文中的
的底数是常数
或者以2,总之对于底数大于1的情形,
的凹凸性是一致的,
是凹函数,
是凸函数。
2、引理,加权Jensen不等式(参考文献1,46页)
若是区间
上的凸函数,则对任意的实数
,对所有非负实数
,且
,则下列不等式成立。
3、下面证明KL散度非负性
KL散度定义如下:
上面的式子中
由于是凹函数,
是凸函数,因此将KL散度定义式变形并应用加权Jensen不等式,可以得到:
由于是一个概率分布,因此和
一样满足下面的式子
因此可以得到
到此KL散度非负性得证。
原文中最后一个公式推导有问题(已经改正),感谢评论区的朋友指正