决策树原理与实践-优快云博客

注：在构造决策树时，我们需要解决的第一个问题是：确定当前数据集上的决定性特征，为了得到该决定性特征，必须评估每个特征，完成测试之后，原始数据集就被划分为几个数据子集，这些数据子集会分布在第一个决策点的所有分支上，如果某个分支下的数据属于同一类型，则当前无序阅读的垃圾邮件已经正确的划分数据分类，无需进一步对数据集进行分割，如果不属于同一类，则要重复划分数据子集，直到所有相同类型的数据均在一个数据子集内。

1.2 创建分支的伪代码createBranch（）如下：

If so return 类标签：
Else
     寻找划分数据集的最好特征
     划分数据集
     创建分支节点
         for 每个划分的子集
             调用函数createBranch()并增加返回结果到分支节点中
         return 分支节点

1.2 如何选择最优划分属性

方法一：信息增益（即是在划分数据前后信息发生的变化称为信息增益）。信息增益既可以用熵也可以用GINI系数来计算

信息熵：度量样本集合纯度的指标之一，信息熵（Ent(D)）的值越小，则样本集合（D）的纯度越高，Ent(D)最小为0，最大值为log2|y|

计算公式：

信息熵代码实现：

def calcShannonEnt(dataSet):
    numEntries = len(dataSet)
    labelCounts = {}#字典
    for featVec in dataSet: #the the number of unique elements and their occurance
        currentLabel = featVec[-1]
        #扩展字典添加新键值
        if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0
        labelCounts[