机器学习之决策树笔记(2)-剪枝处理
机器学习之决策树笔记(1)-决策树基本概念及划分选择标准
前一部分讲了决策树相关基本概念及最优属性划分准则,现在接着讲决策树的剪枝处理。
为什么要剪枝?
剪枝(pruning)是决策树学习算法对付“过拟合”的主要手段.在决策树学习中,为了尽可能正确分类训练样本,结点划分过程将不断重复,有时会造成决策树分支过多,以致于把训练集自身的一些特点当作所有数据都具有的一般性质而导致过拟合。
因此,可通过主动去掉一些分支来降低过拟合的风险.
这里提到一个概念过拟合
过拟合和欠拟合是什么?
过拟合(over-fitting):其实就是所建的学习模型在训练样本中表现得过于优越,导致在验证数据集以及测试数据集中表现不佳。过拟合就是学到了很多没必要的特征。
欠拟合呢(under-fitting):相对过拟合欠拟合还是比较容易理解。就是模型训练样本被提取的特征比较少,导致训练出来的模型不能很好地匹配,表现得很差,甚至样本本身都无法高效的识别。
决策树剪枝的基本策略
“预剪枝”(prepruning)和“后剪枝”(postpruning) [Quinlan, 1993].
预剪枝:
预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点;