1 问题引入
2 算法概述
2.1 工作原理
分类决策树模型是一种描述对实例进行分类的树形结构,决策树可以被看做是一个if-then的集合,或是一个专家系统。通过对每一个特征进行判断,从根节点到达叶节点,得到新数据的分类。
2.2 三要素
模型:决策模型
策略:正则化的极大似然估计
算法:特征选择、生成树、多数表决、剪枝
2.3决策树的构造
有了思想,现在我们想构建一个决策树。每条数据可能会有很多个特征,那么可以构建的决策树就有很多种可能,我们如何选择特征才能使得我们的决策树更有效率、更准确呢?这里用到信息论的原理。
2.3.1 ID3算法
实际上,我们选择特征的目标是为了使切分后的数据集有更多的信息增益。在信息论中,熵是表示随机变量不确定性的度量。在高中物理中我们学到过熵,其意义是体系混乱程度的度量,熵越大越混乱,在这里熵越大意味着不确定性越大,反过来说,熵越小,不确定性越小,即信息增益越大。特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即g(D,A)=H(D) - H(D|A)。我们每次选出使得信息增益最大的特征作为当前划分标准,以此构建决策树。但使用信息增益往往会偏好