1.首先按顺序弄清以下概念:概率,信息,信息熵,交叉熵,相对熵(KL散度),可以参考:
2. 信息熵中log的底数一般是2,但一般在神经网络中,默认以e为底,这样算出来的香农信息量虽然不是最小的可用于完整表示实践的比特数,但对于信息熵的含义来说是区别不大的,只要这个底数大于1,就可以表达信息熵的大小。可以参考:
3. KL散度的作用:用于衡量两个概率分布间的差异。信息论中,KL散度等价于两个概率分布的信息熵的差值,若其中一个概率分布为真实分布,另一个为拟合分布,则此时KL散度等于交叉熵与真实分布的信息熵之差,表示使用理论分布拟合真实分布时产生的信息损失。可以参考:
4. KL散度的性质:非对称性;非负性;凸性
参考内容汇总:
03.29补充:
详解机器学习中的熵、条件熵、相对熵和交叉熵 - 遍地胡说 - 博客园
多标签分类方法总结——实现方法、评价指标、损失函数______miss的博客-优快云博客_多标签分类的评价指标
简单的交叉熵损失函数,你真的懂了吗?_红色石头Will的博客-优快云博客_交叉熵损失函数的理解
二分类、多分类与多标签问题的区别及对应损失函数的选择_lyy14011305的博客-优快云博客_多分类损失函数