决策树是一种基于统计的分类与回归方法。
决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是fit-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。
决策树结合熵的含义来进行统计,通过经验熵H(D),以及条件经验熵H(D|A),进而计算信息增益,以此来判断数据集的最优特征。
** 信息增益的算法:**
**输入:**训练数据集D和特征A
**输出:**特征A对训练数据集D的信息增益g(D,A)
- 计算数据集D的经验熵H(D)
- 计算特征A对数据集D的经验条件熵H(D|A)
- 计算信息增益
下列采用一个案例的实现来体验信息增益的算法,代码如下:
%%%%%%