Approximating KL Divergence(VeRL中low_var_kl)

KL散度与Bregman散度的关系

转载已于 2025-08-05 18:16:22 修改 · 166 阅读

·

1

·

CC 4.0 BY-SA版权

原文链接：http://joschu.net/blog/kl-approx.html

文章标签：

于 2025-08-04 22:39:26 首次发布

实现非常简单，为什么用这种形式？

减少方差，还是保持变差不变

    if kl_penalty == "low_var_kl":
        kl = ref_logprob - logprob
        ratio = torch.exp(kl)
        kld = (ratio - kl - 1).contiguous()
        return torch.clamp(kld, min=-10, max=10)

KL散度和F散度之间的关系

f是凸函数
期望 $E_q[r]=1$
f散度是非负的！KL散度也就是非负的！

关于KL和RKL在f散度下的不同表达

这也是为啥对于KL(p||q)对应xf(x)的原因：
$KL(p||q)=D_f(p||q)=\sum_{x}q(x)\frac{p(x)}{q(x)}log\frac{p(x)}{q(x)}=E_{x \sim q}(rlogr)$
在这里插入图片描述

关于Bregman散度

Bregman散度实际上是曲线和它的垂直切面距离：
在这里插入图片描述
不管是KL(p||q)还是KL(q||p)都是通过转换成Bregman散度来减少方差！

详细解释来自http://joschu.net/blog/kl-approx.html
在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。