首先是树的概念我们都比较熟悉了,然后决策树其实就是一棵树,通过在每一个几点通过特征的不同,走向不同的子树直到走到叶子节点找到分类的标签,算是完成了分类的过程。分类的过程不难理解,主要的是数据构造过程。
首先是构造的依据是什么呢,以什么依据作为特征使用的选择条件呢。这里使用的信息增益,通过计算信息增益的方式来选择特征作为划分数据集合的依据,信息增益最高的特征就是划分数据的最佳方式。
信息增益和熵的计算
信息增益(information gain)就是选择一个特征之后所计算的熵(entropy),与原来的熵的差值即 infoGain=newEntropy−oldEntro