KL散度

最新推荐文章于 2025-03-13 23:40:23 发布

whitenightwu

最新推荐文章于 2025-03-13 23:40:23 发布

阅读量560

点赞数

分类专栏：机器学习具体算法经典机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wydbyxr/article/details/83211956

版权

经典机器学习算法同时被 2 个专栏收录

72 篇文章

订阅专栏

机器学习具体算法

60 篇文章

订阅专栏

KL散度

相对熵（relative entropy）又称为KL散度（Kullback–Leibler divergence，简称KLD），信息散度（information divergence），信息增益（information gain）,KL距离。
在这里插入图片描述

概念解释

它是描述两个概率分布P和Q差异的非对称性的度量（注意与JS散度区别）。它是非对称的，这意味着D(P||Q) ≠ D(Q||P)。
它衡量的是相同事件空间里的两个概率分布的差异情况。其物理意义是：在相同事件空间里，概率分布P(x)的事件空间，若用概率分布Q（x）编码时，平均每个基本事件（符号）编码长度增加了多少比特。我们用D（P||Q）表示KL距离，计算公式如下：
在这里插入图片描述

常用于NLP。在SNE可视化时也使用了KL距离作为优化函数。

另外，有人将KL散度称为KL距离，但事实上，KL散度并不满足距离的概念虽然KL被称为距离，但是其不满足距离定义的三个条件：1）非负性；2）对称性（不满足，P到Q的距离，不等于Q到P的距离）；3）三角不等式（不满足，两边之和大于第三边，两边之差小于第三边）。

与相对熵的关系

当两个概率分布完全相同时，即P(x)=Q(X)，其相对熵为0 。我们知道，概率分布P(X)的信息熵为：
在这里插入图片描述
其表示，概率分布P(x)编码时，平均每个基本事件（符号）至少需要多少比特编码。

相对熵：Kullback–Leibler divergence
交叉熵：cross entropy，通常“相对熵”也可称为“交叉熵”，虽然公式上看相对熵=交叉熵-信息熵，但由于真实分布p是固定的，D(p||q)由H(p,q)决定。当然也有特殊情况，彼时2者须区别对待。

博客等级

码龄9年

478
原创

833
点赞

3424
收藏

457
粉丝

关注

私信

热门文章

分类专栏

最新评论

训练过程--Batchsize（总之一般情况下batchsize能设多大就设多大）
moonlove_: “随着 Batch_Size 增大，达到相同精度所需要的 epoch 数量越来越多。”是不是写错了，应该是需要的epoch数量减少了吧
训练过程--Batchsize（总之一般情况下batchsize能设多大就设多大）
穆清plus: 有答案了吗
训练过程--Batchsize（总之一般情况下batchsize能设多大就设多大）
qq_45915612: 我的理解是在一阶优化器的时候用小的batchsize，二阶优化器的时候用大的batchsize。博主的意思应该是，batchsize小的时候，数据方差大，相对大的batchsize来说噪声大梯度下降的波动大，在一阶优化器中还是可以接受的，甚至这些波动是让网络模型跳出局部最优点的一个闪光点，但是如果使用二阶优化器的话，梯度下降的波动会更剧烈（一顿乱跳，跳出了局部最优点，也跳过了全局最优点），就会比一阶更不稳定，loss可能会直接炸了。当然，这是我很粗浅的理解，不一定对。
训练过程--Batchsize（总之一般情况下batchsize能设多大就设多大）
qq_45915612: 我想到的是不同的batchsize结果数据保存下来，再画图（我的理解是每次训练完一个网络只能设置一个batchsize，所以要等不同的结果出来了才能画在一张图上）
常用度量--MAE(平均绝对误差)和RMSE(均方根误差)
whitenightwu: 都是相对的。一般是与应用的benchmark相比，才有实际意义。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。