优秀的决策树:
在具有好的拟合和泛化能力的同时,需要满足深度小、叶节点少、深度小并且叶节点少(深度:所有节点的最大层次数)。
误差:训练误差和测试误差
过拟合:训练误差地,测试误差高(模型结构过于复杂)
欠拟合:训练误差高,测试误差低(模型结构过于简单)
一、剪枝
由于前文提到的决策树算法容易过拟合,剪枝可以处理决策树的过拟合问题。
预剪枝:生成过程中,对每个节点划分前进行估计,若当前的节点的划分不能提升泛化能力,则停止划分,即当前节点为叶节点。
后剪枝:生成一棵完整的决策树之后,自底而上的对内部节点考察,若此内部节点变成叶节点,可以提升泛化能力,则作此替换。
二、CART算法(Classification and Regression Tree)
ID3算法中使用了信息增益来选择特征,信息增益大的优先选择。在C4.5算法中,采用了信息增益比来选择特征,以减少信息增益容易选择特征值多的特征的问题。但是无论是ID3还是C4.5,都是基于信息论的熵模型的,这里面会涉及大量的对数运算。能不能简化模型同时也不至于完全丢失熵模型的优点呢?有!CART分类树算法使用基尼系数来代替信息增益比,基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。这和信息增益(比)是相反的。
具体的,在分类问题中,假设有K个类别,第k个类别的概率为, 则基尼系数的表达式为:
如果是二类分类问题,计算就更加简单了,如果属于第一个样本输出的概率是p,则基尼系数的表达式为:
对于个给定的样本D,假设有K个类别,第k个类别的数量为,则样本D的基尼系数表达式为:
特别的,对于样本D,如果根据特征A的某个值a,把D分成D1和D2两部分,则在特征A的条件下,D的基尼系数表达式为:
举个例子:
基于桃子的甜度特征:
基于桃子的硬度特征:
基于硬度的基尼指数0.48是大于基于甜度的基尼指数0.17的,因此甜度的特征更有益于桃子的分类。
比较下基尼系数表达式和熵模型的表达式,二次运算是不是比对数简单很多?尤其是二类分类的计算,更加简单。但是简单归简单,和熵模型的度量方式比,基尼系数对应的误差有多大呢?对于二类分类,基尼系数和熵之半的曲线如下:
从上图可以看出,基尼系数和熵之半的曲线非常接近,仅仅在45度角附近误差稍大。因此,基尼系数可以做为熵模型的一个近似替代。而CART分类树算法就是使用的基尼系数来选择决策树的特征。同时,为了进一步简化,CART分类树算法每次仅仅对某个特征的值进行二分,而不是多分,这样CART分类树算法建立起来的是二叉树,而不是多叉树。这样一可以进一步简化基尼系数的计算,二可以建立一个更加优雅的二叉树模型。
三、CART分类树建立算法的具体流程
CART分类树建立算法的具体流程
算法输入是训练集D,基尼系数的阈值,样本个数阈值。
输出是决策树T。
算法从根节点开始,用训练集递归的建立CART树。
- 对于当前节点的数据集为D,如果样本个数小于阈值或者没有特征,则返回决策子树,当前节点停止递归。
- 计算样本集D的基尼系数,如果基尼系数小于阈值,则返回决策树子树,当前节点停止递归。
- 计算当前节点现有的各个特征的各个特征值对数据集D的基尼系数。
- 在计算出来的各个特征的各个特征值对数据集D的基尼系数中,选择基尼系数最小的特征A和对应的特征值a。根据这个最优特征和最优特征值,把数据集划分成两部分D1和D2,同时建立当前节点的左右节点,做节点的数据集D为D1,右节点的数据集D为D2.
- 对左右的子节点递归的调用1-4步,生成决策树。
例题解析:
对于特征年龄的取值=青年时,青年D1=5,同意贷款的个数2,不同意贷款的个数3;非青年D2=10,同意贷款的个数7,不同意贷款的个数3。
对于特征年龄的取值=中年时,中年D1=5,同意贷款的个数3,不同意贷款的个数2;非中年D2=10,同意贷款的个数6,不同意贷款的个数4。
对于特征年龄的取值=老年时,中年D1=5,同意贷款的个数4,不同意贷款的个数1;非老年D2=10,同意贷款的个数5,不同意贷款的个数5。
因此划分点可以确定为青年和老年。
确定第二个特征为有工作时,=是有工作时,有工作D1=5,同意贷款的个数5,不同意贷款的个数0;没有工作D2=10,同意贷款的个数4,不同意贷款的个数6。
确定第三个特征为有自己的房子时,=是有自己的房子时,有工作D1=6,同意贷款的个数6,不同意贷款的个数0;没有工作D2=9,同意贷款的个数6,不同意贷款的个数3。
确定第四个特征为有自己的房子时,计算过程与第一个特征类似,计算省略。
特征值=特别好的基尼指数为0.36,特征值=好的基尼指数为0.47,特征值=一般的基尼指数为0.32。在这个特征情况下,基尼指数选择0.32,特征值选择一般。
第三个特征对应的基尼指数为0.27最小,因此第一个划分特征选择有自己的房子。因此对于第二个特征,对于年龄而言,青年有四个(三个否,一个是),中年两个(两个否,零个是),老年三个(一个否,两个是),对于有工作而言,是有三个(零个否,三个是),否有六个(六个否,零个是),对于信贷情况而言,非常好有一个(零个否,一个是),好有四个(两个否,两个是),一般有四个(四个否,零个是)。对于有工作而言,基尼指数肯定为零,其他特征基尼指数都大于零,所以选择有工作作为第二个特征继续划分。
四、CART回归树建立算法
什么是回归树,什么是分类树。两者的区别在于样本输出,如果样本输出是离散值,那么这是一颗分类树。如果果样本输出是连续值,那么这是一颗回归树。
CART回归树和CART分类树的建立和预测的区别主要有下面两点:
1)连续值的处理方法不同
2)决策树建立后做预测的方式不同。
连续值的处理,CART分类树采用的是用基尼系数的大小来度量特征的各个划分点的优劣情况。这比较适合分类模型。但是对于回归模型,使用了常见的和方差的度量方式。
c1为D1数据集的样本输出均值,c2为D2数据集的样本输出均值。这样最优切分点为s=0.1。
CART回归树建立算法的具体流程
举例:
刚刚已经计算出来最优切分点为s=0.1。决策树的模型如下:
五、CART树算法的剪枝
由于决策时算法很容易对训练集过拟合,而导致泛化能力差,为了解决这个问题,我们需要对CART树进行剪枝,即类似于线性回归的正则化,来增加决策树的泛化能力。但是,有很多的剪枝方法,我们应该这么选择呢?CART采用的办法是后剪枝法,即先生成决策树,然后产生所有可能的剪枝后的CART树,然后使用交叉验证来检验各种剪枝的效果,选择泛化能力最好的剪枝策略。
CART树的剪枝算法可以概括为两步,第一步是从原始决策树生成各种剪枝效果的决策树,第二部是用交叉验证来检验剪枝后的预测能力,选择泛化预测能力最好的剪枝后的数作为最终的CART树。
剪枝的损失函数度量,在剪枝的过程中,对于任意的一刻子树T,其损失函数如下:
其中,为正则化参数,这和线性回归的正则化一样。C(T)为训练数据的预测误差(代价),分类树是用基尼系数度量,回归树是均方差度量。|T|是子树T的叶子节点的数量(复杂度)。
当=0时,即没有正则化,原始的生成的CART树即为最优子树。当
时,即正则化强度达到最大,此时由原始的生成的CART树的根节点组成的单节点树为最优子树。当然,这是两种极端情况。一般来说,α越大,则剪枝剪的越厉害,生成的最优子树相比原生决策树就越偏小。对于固定的
,一定存在使损失函数Cα(T)最小的唯一子树。
看过剪枝的损失函数度量后,对于位于节点t的任意一颗子树Tt,如果没有剪枝,它的损失是:
如果将其剪掉,仅仅保留根节点,则损失是:
当=0或者
很小时,
,当
增大到一定的程度时
。当
继续增大时不等式反向,也就是说,如果满足下式:
Tt和T有相同的损失函数,但是T节点更少,因此可以对子树Tt进行剪枝,也就是将它的子节点全部剪掉,变为一个叶子节点T。
CART树的交叉验证策略
计算出每个子树是否剪枝的阈值,把所有的节点是否剪枝的值
都计算出来,然后分别针对不同的
所对应的剪枝后的最优子树做交叉验证。这样就可以选择一个最好的
,可以用对应的最优子树作为最终结果。
算法流程
输入是CART树建立算法得到的原始决策树。
输出是最优决策子树。
算法主要过程如下:
- 初始化k=0,T=T0,最优子树集合
。
- 设
。
- 从叶子节点开始自下而上计算各内部节点t的训练误差损失函数
(回归树为均方差,分类树为基尼系数), 叶子节点数|Tt|,以及正则化阈值
, 更新
。
。
- 自上而下的访问子树t的内部节点,如果
时,进行剪枝。并决定叶节点t的值。如果是分类树,则是概率最高的类别,如果是回归树,则是所有样本输出的均值。这样得到
对应的最优子树
。
- 最优子树集合
。
,如果T不是由根节点单独组成的树,则回到步骤2继续递归执行。否则就已经得到了所有的可选最优子树集合
。
- 采用交叉验证在
选择最优子树
。
六、 CART算法小结
CART算法相比C4.5算法的分类方法,采用了简化的二叉树模型,同时特征选择采用了近似的基尼系数来简化计算。当然CART树最大的好处是还可以做回归模型,这个C4.5没有。下表给出了ID3,C4.5和CART的一个比较总结。
算法 | 支持模型 | 树结构 | 特征选择 | 连续值处理 | 缺失值处理 | 剪枝 |
ID3 | 分类 | 多叉树 | 信息增益 | 不支持 | 不支持 | 不支持 |
C4.5 | 分类 | 多叉树 | 信息增益比 | 支持 | 支持 | 支持 |
CART | 分类,回归 | 二叉树 | 基尼系数,均方差 | 支持 | 支持 | 支持 |
七、决策树算法小结
决策树算法的优缺点。
决策树算法的优点:
- 简单直观,生成的决策树很直观。
- 基本不需要预处理,不需要提前归一化,处理缺失值。
- 使用决策树预测的代价是O(log2m)。 m为样本数。
- 既可以处理离散值也可以处理连续值。很多算法只是专注于离散值或者连续值。
- 可以处理多维度输出的分类问题。
- 相比于神经网络之类的黑盒分类模型,决策树在逻辑上可以得到很好的解释。
- 可以交叉验证的剪枝来选择模型,从而提高泛化能力。
- 对于异常点的容错能力好,健壮性高。
决策树算法的缺点:
- 决策树算法非常容易过拟合,导致泛化能力不强。可以通过设置节点最少样本数量和限制决策树深度来改进。
- 决策树会因为样本发生一点点的改动,就会导致树结构的剧烈改变。这个可以通过集成学习之类的方法解决。
- 寻找最优的决策树是一个NP难的问题,一般是通过启发式方法,容易陷入局部最优。可以通过集成学习之类的方法来改善。
- 有些比较复杂的关系,决策树很难学习,比如异或。
- 如果某些特征的样本比例过大,生成决策树容易偏向于这些特征。这个可以通过调节样本权重来改善。
学习资料:
5.6 决策树:CART算法(6)——剪枝_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1No4y1o7ac?spm_id_from=333.788.player.switch&vd_source=90c4af5a77af61e3c51cdb5f018cca32&p=58决策树算法原理(下) - 刘建平Pinard - 博客园
https://www.cnblogs.com/pinard/p/6053344.html