决策树

最新推荐文章于 2025-05-14 14:20:17 发布

原创最新推荐文章于 2025-05-14 14:20:17 发布 · 188 阅读

CC 4.0 BY-SA版权

决策树

最近一段时间学习了决策树，主要参考了《统计学习方法》，现记录如下：

分类决策树模型是一种描述对实例进行分类的树形结构．决策树由结点(node)和有向边(directededge)组成．结点有两种类型：内部结点(internalnode)和叶结点(leafnode). 内部结点表示一个特征或属性，叶结点表示一个类。
用决策树分类，从根结点开始，对实例的某一特征进行刹试，根据测试结果，将实例分配到其子结点：这时，每一个子结点对应籽该特征的一个取值．如此递归地对实例进行测试并分配，直至达到叶结点．最后将实例分到叶结点的类中。

要构建决策树分类器，主要需要三步：特征选择、决策树生成和决策树剪枝，接下来分别介绍这三个方面：

1、特征选择

特征选择在千选取对训练数据具有分类能力的特征．这样可以提高决策树学习的效率．如果利用一个特征进行分类的结果与随机分类的结果没有很大差别，则称这个特征是没有分类能力的．经验上扔掉这样的特征对决策树学习的精度影响不大．通常特征选择的准则是信息增益或信息增益比。

1.1、信息增益

特征A 对训练数据集D的信息增益 g(D,A), 定义为栥合D的经验墒H(D)与特征A给定条件下D的经验条件墒 H(DIA)之差，即

g(D,A)=H(D)-H(DIA)

一般地，墒 H(Y)与条件墒fl(YIX)之差称为互倌息 (mutual information). 决策树学习中的信息增益等价千训练数据渠中类与特征的互信息，决策树学习应用信息增益准则选择特征，给定训练数据集D 和特征A , 经验墒 H(D)表示对数据集D进行分类的不确定性．而经验条件烧 H(DIA)表示在特征A给定的条件下对数据集D进行分类的不确定性那么它们的差，即信息增益，就表示由千特征A而使得对数据渠D的分类的不确定性减少的程度．显然，对于数据集D而言，信息增益依赖千特征，不同的特征往往具有不同的信息增益．信息增益大的特征具有更强的分类能力。
根据信息增益准则的特征选择方法是：对训练数据集（或子集） D, 计算其每个特征的信息增益，并比较它们的大小，选择信息增益最大的特征。

1.2、信息增益比

信息增益值的大小是相对于训练数据集而言的，井没有绝对意义．在分类问题困难时，也就是说在训练数据集的经验烧大的时候，信息增益值会偏大，反之，信息增益值会偏小．使用信息增益比Cinfonnation gain ratio)可以对这一问题进行校正．这是特征选择的另一准则，
信息增益比：特征A对训练数据集D的信息增益比g,(D,A)定义为其信息增益g(D,A)与训练数据集D的经验墒H(D)之比：g,(D.A)= $\frac{g(D,A)}{H(D)}$

2、决策树的生成

2.1、ID3算法

ID3算法的核心是在决策树各个结点上应用信息增益准则选择特征，递归地构建决策树．具体方法是，从根结点(rootnode)开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点；再对子结点递归地调用以上方法，构建决策树；直到所有特征的信息增益均很小或没有特征可以选择为止．最后得到一个决策树ID3相当千用极大似然法进行概率模型的选择．

3、决策树剪枝

决策树生成算法递归地产生决策树，直到不能继续下去为止，这样产生的树往往对训练数据的分类很准确，但对未知的测试数据的分类却没有那么准确，即出现过拟合现象．过拟合的原因在千学习时过多地考虑如何提高对训练数据的正确分类，从而构建出过于复杂的决策树解决这个问题的办法是考虑决策树的复杂度，对已生成的决策树进行简化．
在决策树学习中将已生成的树进行简化的过程称为剪枝(pruning). 具体地，剪枝从己生成的树上裁掉一些子树或叶结点，井将其根结点或父结点作为新的叶结点，从而简化分类树楼型．