为何pytorch nn.KLDivLoss()损失计算为负数？

Time-leaper

已于 2022-04-19 16:56:42 修改

阅读量6.3k

点赞数 7

分类专栏： pytorch KL散度文章标签： python pytorch

于 2022-04-19 16:55:23 首次发布

本文链接：https://blog.youkuaiyun.com/cainiao00078/article/details/124277706

版权

pytorch 同时被 2 个专栏收录

4 篇文章

订阅专栏

KL散度

1 篇文章

订阅专栏

参考文献：https://www.zhihu.com/question/384982085
先来看一下KL散度的定义
在这里插入图片描述

这里是要用分布Q为标签（原始分布），分布P作为预测值（预测分布）

在pytorch中，nn.KLDivLoss()的计算公式如下：
在这里插入图片描述
上图y为标签，x为预测值，则pytorch应该以如下代码使用

lossfunc = nn.KLDivLoss()
loss = lossfunc(预测值, 标签值)

但是，由于计算公式中，预测值x的输入要是对数形式，而标签值y则不需要，所以如果我们要对预测值和标签值的softmax值求KL散度就需要如下：

temp = 1 #温度系数
probs = torch.Tensor([[2, 6, 8], [7, 1, 2], [1, 9, 2.3], [1.9, 2.8, 5.4]])
target = torch.Tensor([[0.8, 0.1, 0.1], [0.1, 0.7, 0.2], [0.5, 0.2, 0.3], [0.4, 0.3, 0.3]])
loss = lossfunc(F.log_softmax(probs / temp, dim=1), F.softmax(target / temp, dim=1))#如果probs和target已经是softmax的形式，就只需要给probs取对数输入就行了

也就是说要给输入的预测值预先取个对数，这样计算结果就不为负数了

错误示范：

probs = torch.Tensor([[2, 6, 8], [7, 1, 2], [1, 9, 2.3], [1.9, 2.8, 5.4]])
target = torch.Tensor([[0.8, 0.1, 0.1], [0.1, 0.7, 0.2], [0.5, 0.2, 0.3], [0.4, 0.3, 0.3]])
loss1 = lossfunc(F.softmax(probs / temp, dim=1), F.softmax(target / temp, dim=1))
loss2 = lossfunc(probs, target)