关于KL散度的一点记录

本文深入探讨了概率、信息熵、交叉熵和KL散度的概念。信息熵衡量信息的不确定性,通常以2或e为底,而交叉熵用于评估模型预测概率分布与实际分布的匹配程度。KL散度则作为衡量两个概率分布差异的非对称、非负和凸性的度量,在机器学习中广泛用于损失函数和模型评估。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.首先按顺序弄清以下概念:概率,信息,信息熵,交叉熵,相对熵(KL散度),可以参考:

        KL-Divergence详解 - 知乎

2. 信息熵中log的底数一般是2,但一般在神经网络中,默认以e为底,这样算出来的香农信息量虽然不是最小的可用于完整表示实践的比特数,但对于信息熵的含义来说是区别不大的,只要这个底数大于1,就可以表达信息熵的大小。可以参考:

        信息熵与相对熵(KL散度) - 知乎

3. KL散度的作用:用于衡量两个概率分布间的差异。信息论中,KL散度等价于两个概率分布的信息熵的差值,若其中一个概率分布为真实分布,另一个为拟合分布,则此时KL散度等于交叉熵与真实分布的信息熵之差,表示使用理论分布拟合真实分布时产生的信息损失。可以参考:

       信息熵与相对熵(KL散度) - 知乎

4. KL散度的性质:非对称性;非负性;凸性

参考内容汇总:

KL-Divergence详解 - 知乎

Kullback-Leibler(KL)散度介绍 - 知乎

KL散度理解 - 知乎

信息熵与相对熵(KL散度) - 知乎

浅谈KL散度 - 加拿大小哥哥 - 博客园

 

 03.29补充:

详解机器学习中的熵、条件熵、相对熵和交叉熵 - 遍地胡说 - 博客园

为什么用交叉熵做损失函数 - 知乎 

多标签分类任务中的损失函数 - 知乎 

多标签分类要用什么损失函数? - 知乎 

多标签分类方法总结——实现方法、评价指标、损失函数______miss的博客-优快云博客_多标签分类的评价指标

简单的交叉熵损失函数,你真的懂了吗?_红色石头Will的博客-优快云博客_交叉熵损失函数的理解

 

二分类、多分类与多标签问题的区别及对应损失函数的选择_lyy14011305的博客-优快云博客_多分类损失函数 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值