决策树算法-优快云博客

一、什么是决策树

决策树是一种基于规则的方法，它用一组嵌套的规则进行预测。在树的每个决策节点处，根据判断结果进入一个分支，反复执行这种操作直到到达叶子节点，得到预测 / 分类结果。

二、树形决策过程

决策树的节点分为两种类型：

决策节点。在这些节点处需要进行判断以决定进入哪个分支。
叶子节点。表示最终的决策结果。对于分类问题，叶子节点中存储的是类别标签。

三、训练算法

1、递归分裂过程

首先创建根节点，然后递归地建立左子树和右子树。
假如训练样本集为 D，训练算法的整体流程如下：

用样本集 D 建立跟节点，找到一个判定条件，为根节点设置判定规则，将样本集分裂成 D1 和 D2 两部分。
用样本集 D1 递归建立左子树。
用样本集 D2 递归建立右子树。
如果不能再进行分裂，则把节点标记为叶子节点，同时为它赋值。

2、寻找最佳分裂

最佳分裂即保证分裂之后的左右子树的样本尽可能纯，即他们的样本尽可能属于不相交的类。

定义不纯度指标，当样本只属于某一类时指标最小，当样本均匀地分布于所有类中时指标最大，因此， 如果能找到一个分裂让指标最小，这就是我们想要的最佳分裂。

2.1 阈值设定

假设特征分量是数值型的，我们为每个特征分量设置一系列阈值，分别用每个阈值计算样本集分裂后的不纯度，不纯度值最小对应的分裂就是最佳分裂。每次都选择当前条件下最好的分裂作为决策节点的分裂。

2.2 分类问题

前提：每个类出现的概率 $p_i = \frac{N_i}{N}$ ， $N_i$ 是第 i 类样本数， $N$ 为总样本数。

2.2.1 不纯度指标

熵不纯度

Gini 不纯度

误分类不纯度

2.2.2 分裂的不纯度

分裂规则训练样本分裂成左、右两个子集，分裂的目标是分裂后的两个子集都尽可能纯。
因此，计算左、右子集的不纯度加权和作为分裂结果的不纯度，以反映左右两边训练样本数的差异。

$G(D_L)$ 是左子集的不纯度， $G(D_R)$ 是右子集的不纯度， $N$ 是总样本数， $N_L$ 是左子集的样本数， $N_R$ 是右子集的样本数。

2.3 回归问题

使用回归误差（即样本方差）来表示不纯度。

假设节点的训练样本集有 $l$ 个样本 $(x_i, y_i)$ ， $x_i$ 为特征向量， $y_i$ 为标签值， $\overline{y}_i$ 是样本集 $D$ 所有样本标签的均值。样本集 $D$ 的回归误差定义为：

3、叶子节点的设定

如果不能继续分裂，则将该节点设置为叶子节点。

分类问题（分类树），将叶子节点的值设置成本节点的训练样本集中出现概率最大的那个类；
回归问题（回归树），叶子节点的值设置为本节点训练样本标签的均值。

4、剪枝算法

如果决策树的结构过于复杂，可能会导致过拟合问题。此时需要对树进行剪枝，消掉某些节点让它变得更简单。

剪枝算法的实现方案为计算出所有非叶子节点的 $\alpha$ 值之后，剪掉 $\alpha$ 值最小的节点得到剪枝后的树，然后重复这种操作。

4.1 预剪枝

在树的训练过程中通过停止分裂对树的规模进行限制，其中包括限定树的高度、节点的训练样本数、分裂纯度提升的最小值

4.2 后剪枝

先训练得到一棵完整的树，然后通过某种规则消掉部分节点。

包括降低错误剪枝（Reduced-Error Pruning， REP）、 悲观错误剪枝（ Pesimistic-Error Pruning， PEP）、 代价-复杂度剪枝（Cost-Complexity pruning， CCP）等

CCP

代价是指剪枝后导致的错误率的变化值，复杂度是指决策树的规模。

计算α

首先计算该决策树每个非叶子节点的 $\alpha$ 值， $\alpha$ 值表示将整个子树剪掉之后用一个叶子节点代替，相对于原来的子树错误率的增加值。该值越小，剪枝之后树的预测效果与剪枝之前越接近。

$E(n)$ 是节点 n 的错误率， $E(n_t)$ 是以节点 n 为根的子树的错误率，是该子树所有叶子节点的错误率之和， $|nt|$ 是子树的叶子节点数量，即复杂度。