从“信息增益”到KL Divergence 和 Cross Entropy

从“信息增益”到KL Divergence 和 Cross Entropy

周志华老师在他的西瓜书的第四章,引入了“信息熵”,“信息增益”(information gain)的概念,并用信息增益最大为准则选择划分决策树的属性。周老师并没有对这两个概念进行深入讲解,实际上这两个概念均来源于信息论(Information Theory)领域。

Entropy, actually, is a measure of surprise

西瓜书中对信息熵是这样定义的:

假定当前集合D中第 k 个类样本所占比例为pk, 则D的信息熵定义为

Ent(D)=kpklog2pk

事实上,我们可以把pk近似看成一个样本是第k类的概率,那么信息熵就可以看做是观测到一个样本,所得到的信息的一个期望。

H(K)=E(log(1pk))

其中 log(1pk) 就表示观测到一个样本,他的类别是 k 的信息。
从上述公式可以看出,观测到一个事件给我们的信息量,跟这个事件发生的概率有关。概率越小,信息量越大。

Information Gain is also called mutual information

西瓜书接下来又定义了information gain:

### KL(Kullback-Leibler Divergence)的概念 KL是一种衡量两个概率分布之间差异的方法,属于信息论的范畴。它通常用于描述一个概率分布 $ P $ 与另一个参考概率分布 $ Q $ 的相似性或差异性。KL的数学定义如下: 对于离随机变量: $$ D_{KL}(P || Q) = \sum_{i} P(i) \log \frac{P(i)}{Q(i)} $$ 对于连续随机变量: $$ D_{KL}(P || Q) = \int P(x) \log \frac{P(x)}{Q(x)} dx $$ 需要注意的是,KL不具备对称性,即 $ D_{KL}(P || Q) \neq D_{KL}(Q || P) $,因此它并不满足距离量的所有性质,但它仍然可以作为衡量两个分布之间差异的有效工具。 ### KL的计算方法 KL的计算依赖于具体的概率分布形式。以下是一些常见的分布类型及其对应的KL公式: #### 高斯分布之间的KL 假设两个一维高斯分布分别为 $ P(x) = \mathcal{N}(\mu_1, \sigma_1^2) $ $ Q(x) = \mathcal{N}(\mu_2, \sigma_2^2) $,则它们之间的KL为: $$ D_{KL}(P || Q) = \frac{1}{2} \left( \log \frac{\sigma_2^2}{\sigma_1^2} + \frac{\sigma_1^2 + (\mu_1 - \mu_2)^2}{\sigma_2^2} - 1 \right) $$ #### 多元高斯分布之间的KL 设两个多元高斯分布为 $ P(x) = \mathcal{N}(\mu_1, \Sigma_1) $ $ Q(x) = \mathcal{N}(\mu_2, \Sigma_2) $,则KL为: $$ D_{KL}(P || Q) = \frac{1}{2} \left( \log \frac{\det(\Sigma_2)}{\det(\Sigma_1)} + \text{tr}(\Sigma_2^{-1} \Sigma_1) + (\mu_2 - \mu_1)^T \Sigma_2^{-1} (\mu_2 - \mu_1) - n \right) $$ 其中 $ n $ 是特征维。 #### 示例代码:计算两个一维高斯分布之间的KL ```python import numpy as np def kl_divergence_gaussian(mu1, sigma1, mu2, sigma2): return (np.log(sigma2**2 / sigma1**2) + (sigma1**2 + (mu1 - mu2)**2) / sigma2**2 - 1) / 2 # Example usage mu1, sigma1 = 0, 1 # Parameters of distribution P mu2, sigma2 = 1, 1 # Parameters of distribution Q print("KL(P||Q):", kl_divergence_gaussian(mu1, sigma1, mu2, sigma2)) ``` ### 应用场景 KL在多个领域中都有广泛的应用,尤其是在计算机视觉机器学习中。 1. **模型拟合** 在机器学习中,KL常用于评估模型输出的概率分布与真实分布之间的差异。例如,在变分自编码器(VAE)中,KL被用来衡量生成模型的隐空间分布与标准正态分布之间的差异。 2. **图像处理与计算机视觉** KL可用于衡量两幅图像之间的相似性,尤其是在基于概率分布的图像匹配任务中。例如,在目标跟踪中,KL可以用来比较当前帧中的目标区域与历史帧中的目标区域的分布差异。 3. **优化算法** KL可以作为损失函数的一部分,用于指导模型的训练过程。例如,在强化学习中,KL可以用来控制策略更新的幅,以避免过大的变化导致训练不稳定。 4. **数据压缩与信息理论** 在信息论中,KL可以用于衡量编码效率的损失。当使用不准确的概率分布进行编码时,KL可以表示额外的信息冗余[^1]。 5. **贝叶斯推断** 在贝叶斯框架中,KL常用于近似后验分布。例如,在变分贝叶斯方法中,通过最小化KL来寻找一个简单的分布来近似复杂的后验分布。 ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值