信息熵笔记

最新推荐文章于 2022-10-25 11:27:07 发布

巴拉巴拉朵

最新推荐文章于 2022-10-25 11:27:07 发布

阅读量608

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习大数据

本文链接：https://blog.youkuaiyun.com/whgyxy/article/details/89156169

机器学习同时被 2 个专栏收录

15 篇文章

订阅专栏

大数据

6 篇文章

订阅专栏

信息熵的定义

热力学中的热熵是表示分子状态混乱程度的物理量。数学家香农用信息熵的概念来描述信源的不确定度，信息熵是来度量信息的不确定性的，熵越大，表示不确定性越高；熵越小，表示不确定性越低。不确定性是概率 $p$ 的减函数，独立的两个信息的熵是可以相加的，对数函数同时满足这两个条件，设事件 $A$ 有取值 $a_1$ ， $a_2$ … $a_N$ ，对应的概率为 $p_1$ ， $p_2$ ，…， $p_N$ ，信息熵为事件各取值的期望，表达式如下

$H(A)=\sum_{i=1}^Np_ilog\,p_i$

其中 $p_i=P(A=a_i)$ ，表示取值为 $a_i$ 的概率

熵的性质

非负性
对称性，关于 $p = 0.5$ 对称
确定性，在 $p = 1$ 和 $p = 0$ 就是确定状态，此时非常确定，信息熵为0
极值性，熵表达式是关于 $p$ 的上凸函数，在 $p = 0.5$ 达到极大值，在 $p = 0$ 和 $p = 1$ 达到极小值0

条件信息熵的定义

条件 $A$ ，可以取值 $a_1$ ， $a_2$ … $a_N$ ，对应的概率为 $p_1$ ， $p_2$ ， $p_N$ ，
$H(D|A=a_i)$ 表示在特征 $A$ 取值为 $a_i$ 的情况下，数据集 $D (A = A i)$ 的信息熵

$H(D|A)=\sum_{i=1}^Np_iH(D|A=a_i)$

信息增益

信息熵在机器学习中有一个重要的应用，决策树如何选择分裂叶节点时的参考指标就是分裂前后整体信息熵的变化量（信息增益）设样本数据集是 $D$ ,整体的信息熵为 $H (D)$ ,按照特征 $A$ 的不同取值对数据集进行切分，假设 $A$ 有 $N$ 个取值 $a_1,a_2,...,a_N$ 切分后信息熵为条件信息熵 $H (D ∣ A)$ ，信息增益的表示如下

$g a i n (D, A) = H (D) - H (D ∣ A)$

其中 $H(D|A)=\sum_i^Np(A=a_i)H(D|A=a_i)=-\sum_i^Np(A=a_i)\sum_j^K\frac{D_j}{|D|}log\frac{D_j}{|D|}$

$D_j$ 表示在 $A=a_i$ 的条件下分到类别 $j$ 的数据集合

我们在选择特征进行分裂的时候，选择新信息增益最大的特征进行分裂，这样一次分裂最大程度的减少了整个数据集的不确定性

但是单纯使用信息增益作为评价标准，会倾向于取值较多的特征。有一个极端的例子：用户的ID特征，整个特征每个用户都不同，按照这个特征的取值去划分，会得到每个叶子节点都只有一个实例， $H (D ∣ A) = 0$ ， $g a i n = H (D)$ 最大，但是这样划分是没有意义的，因此需要一个约束来解决这个情况，这就是信息增益率