李航机器学习之决策树CART算法

原创已于 2023-04-04 21:29:24 修改 · 1.4k 阅读

35 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #机器学习 #决策树

于 2023-03-19 16:51:42 首次发布

CART算法是一种用于构建决策树的常用方法，适用于分类和回归问题。在分类问题中，CART通过基尼指数选择最优特征进行划分，而回归问题中则是基于最小化平方误差。文章详细介绍了CART算法的特征选择、模型生成、剪枝过程以及如何处理连续值。此外，还提供了实例分析，展示了如何用CART算法构建分类树和回归树，并讨论了剪枝策略，以平衡模型的复杂度和泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.CART算法

对于CART分类树连续值的处理问题，其思想和C4.5是相同的，都是将连续的特征离散化。唯一的区别在于在选择划分点时的度量方式不同，C4.5使用的是信息增益比，则CART分类树使用的是基尼系数。
CART（Classification and Regression Tree）算法包括三步走：选择特征、生成决策树、剪枝
之前的决策树一般都是多叉树
在这里插入图片描述
而CART是二叉树，怎么转换。

例如：对于纹理这个特征而言，可以分为清晰、稍模糊、模糊三叉，但是如果把这个三叉树改成二叉树，就可以写成清晰和不清晰，接着在「不清晰」中，再分为模糊和稍模糊

2.特征选择-基尼指数

要想生成一棵决策树，首先应该选择最优特征。在CART算法中，是通过基尼指数来选择最优特征的，ID3和C4.5是使用信息增益和信息增益比。

2.1 基尼指数

假设有 $K$ 个类，样本点属于第 $k$ 类的概率为 $p_k$ ，概率分布的基尼指数定义为： $Gini(p)=\sum_{k=1}^Kp_k(1-p_k)=1-\sum_{k=1}^Kp_k^2$

显然，这就是样本点被错分的概率期望。如果整个样本集只有一个类别，那么基尼指数就是0，表示样本集纯度达到最高值。反正总共就一个类，那么任意抽取一个样本，自然就知道它的归属类别。

2.2 对于二类分类问题

如果样本点属于第一类的概率是 $p$ ，不属于的概率就是 $1 - p$ ，代入到这个公式里就是： $\begin{aligned}Gini(p)&=p(1-p)+(1-p)(1-(1-p))\\&=2p(1-p)\end{aligned}$
然而实际生活中概率 $p$ 无法知道，只能用估计值，所以有以下：

如果对给定的样本集合 $D$ ，可以分为两个子集 $C_1$ 和 $C_2$ ： $Gini(p)=1-\sum_{k=1}^2\left(\frac{|C_k|}{|D|}\right)^2$ ，其中 $\frac{|C_k|}{|D|}$ 就是 $p$ 的经验值。

之所以单独把二分类的情况列出来，是因为在提出基尼指数的CART算法中用的就是这个，毕竟CART算法生成的是二叉决策树。但其实基尼指数完全可以用到多分类问题中。

如：对于特征A条件下，样本集D的基尼指数为

$Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)$
这里就是选定了特征A，并且将数据集中按照特征分成了两个数据集，再分别求它们对应的基尼指数。

2.3 例子

拿水蜜桃来举个例子。一共 $10$ 个桃子，其中 $5$ 个好吃， $5$ 个不好吃。
那么可以计算出整个数据集的基尼指数： $Gini(D)=2p(1-p)=2*\frac{1}{2}*\frac{1}{2}=0.5$ ，分类：好吃和不好吃，两种。

第一个特征，选择甜度特征

按照阈值 $\epsilon=0.2$ 分成两组。
假设，甜度大于 $0.2$ 的有 $6$ 个桃子，其中 $5$ 个好吃， $1$ 个不好吃，甜度小于等于 $0.2$ 的有 $4$ 个桃子，都不好吃，那么我们就可以列出这样一个二叉树。数据集就被分成了 $D_1$ 和 $D_2$ 两个。这里我们把甜度特征标记为 $A$ 。

接着来计算甜度特征下的基尼指数。
计算 $D_1$ 数据集的基尼指数： $Gini(D_1)=2*\frac{5}{6}*\frac{1}{6}=\frac{10}{36}$
接着计算 $D_1$ 占比的权重为： $w_1=\frac{6}{10}$
计算 $D_2$ 数据集的基尼指数： $Gini(D_2)=2*\frac{0}{4}*\frac{4}{4}=0$
接着计算 $D_2$ 占比的权重为： $w_2=\frac{4}{10}$
计算甜度特征下的基尼指数 $Gini(D,A)=\frac{6}{10}*\frac{10}{36}+\frac{4}{10}*0=0.17$

第二个特征，选择硬度特征，按照软硬分成两组。
假设，有5个硬桃子，其中2个好吃，3个不好吃，5个软桃子中，有3个好吃，2个不好吃。那么继续列出一个二叉树，这里我们把硬度特征标记为 $B$ 。
在这里插入图片描述
计算 $D_1$ 数据集的基尼指数： $Gini(D_1)=2*\frac{2}{5}*\frac{3}{5}=\frac{12}{25}$
接着计算 $D_1$ 占比的权重为： $w_1=\frac{5}{10}$
计算 $D_2$ 数据集的基尼指数： $Gini(D_2)=2*\frac{3}{5}*\frac{2}{5}=\frac{12}{25}$
接着计算 $D_2$ 占比的权重为： $w_2=\frac{5}{10}$
计算甜度特征下的基尼指数： $Gini(D,B)=\frac{1}{2}*\frac{12}{25}+\frac{1}{2}*\frac{12}{25}=0.48$

通过比较可以看出： $G ini (D, A) < G ini (D, B)$
按照甜度分类时，分类的确定性更胜一筹，那么就可以用这个特征作为最优特征。
这就是用基尼指数来找到最优特征的方法，通过对数据集中不同特征进行基尼指数的遍历计算，就能得出最小时对应的特征，这就完成了CART算法中的第一步。

2.4 CART分类树算法解读

输入：数据集 $D$ ，特征集 $A$ ，停止条件阈值 $\epsilon$
输出：CART分类决策树

第一步，从根节点出发，构建二叉树
第二步，计算现有特征下对数据集 $D$ 基尼指数，选择最优特征
假设特征集 $A$ 中 $A_1,A_2,\cdots,A_n$ 个特征，那么我们先选出 $A_1$ 特征，假设这个特征里，有 $a_{11},a_{12},\cdots,a_{1m_1}$ 个值，那么对数据集 $D$ 按照每一个 $a_{1i}$ 特征值来分成 $D_1$ 和 $D_2$ 两个数据集，并且计算一下对应的基尼指数，选择基尼指数最小的那个特征值 $a_{1i}$ 作为最优切分点。
以此类推，得出每个特征下的最优切分点，也就是最优的特征值。接着比较在最优切分下每个特征的基尼指数，选择基尼指数最小的那个特征，就是最优特征。
第三步，根据最优特征和最优切分点，生成两个子节点，并将数据集分配到对应的子节点中。
按照最优切分点来分成二叉树。
第四步，分别对两个子节点继续递归调用上面的步骤，直到满足条件，即生成CART分类决策树。
这里的条件，一般就是阈值，当基尼指数小于这个阈值时，意味着样本基本上属于一类，或者就是没有更多的特征了，那么就完成了CART分类决策树的生成。

2.5 例题：分类树（分类问题）

训练集 $D$ ，特征集分别是 $A_1$ 年龄， $A_2$ 是否有工作， $A_3$ 是否有自己的房子， $A_4$ 信贷情况。
类别为 $y_1=是$ ， $y_2=否$

贷款申请样本数据表：

ID	年龄	有工作	有自己的房子	信贷情况	类别
1	青年	否	否	一般	否
2	青年	否	否	好	否
3	青年	是	否	好	是
4	青年	是	是	一般	是
5	青年	否	否	一般	否
6	中年	否	否	一般	否
7	中年	否	否	好	否
8	中年	是	是	好	是
9	中年	否	是	非常好	是
10	中年	否	是	非常好	是
11	老年	否	是	非常好	是
12	老年	否	是	好	是
13	老年	是	否	好	是
14	老年	是	否	非常好	是
15	老年	否	否	一般	否

回顾一下公式：
对于特征A条件下，样本集D的基尼指数为： $Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)$

第一个选择年龄 $A_1$ 这个特征
年龄特征中有：青年 $A_{11}$ ，中年 $A_{12}$ 和老年 $A_13$ 三个特征值。

D\|A1	年龄	个数	是否同意贷款
D\|A1	年龄	个数	否	是
D1	青年	5	3	2
D2	中年	5	2	3
D3	老年	5	1	4

1.以青年和非青年分类：

因为CART算法是二叉树，在此我们不妨将数据集分为青年和非青年（也就是中年和老年）。
那么，青年 $D_1$ 的基尼数和权重： $Gini(D_1)=2*\frac{2}{5}*\frac{3}{5}=\frac{12}{25}\\w_1=\frac{5}{15}$
非青年 $D_2$ 的基尼数和权重： $Gini(D_2)=2*\frac{7}{10}*\frac{3}{10}=\frac{42}{100}\\w_2=\frac{10}{15}$
$Gini(D,A_{11})=\frac{5}{15} *\frac{12}{25}+\frac{10}{15}*\frac{42}{100}=0.44$

同理，还可以以中年、老年来作为分类点。

2.以中年和非中年分类：

$Gini(D,A_{12})=\frac{5}{15} *2*\frac{3}{5}*\frac{2}{5}+\frac{10}{15}*2*\frac{6}{10}*\frac{4}{10}=0.48$

3.以老年和非老年分类：

$Gini(D,A_{13})=\frac{5}{15} *2*\frac{4}{5}*\frac{1}{5}+\frac{10}{15}*2*\frac{5}{10}*\frac{5}{10}=0.44$

可以看出，青年和老年的基尼指数最小，都可以作为最优划分点

第二个选择工作 $A_2$ 这个特征
工作特征中有：有工作 $A_{21}$ 、无工作 $A_{22}$ 2个特征值。

D\|A2	有工作	个数	是否同意贷款
D\|A2	有工作	个数	否	是
D1	是	5	0	5
D2	否	10	6	4

那么，有工作 $D_1$ 的基尼数和权重： $Gini(D_1)=2*\frac{0}{5}*\frac{5}{5}=0 \\ w_1=\frac{5}{15}$

有工作 $D_2$ 的基尼数和权重： $Gini(D_2)=2*\frac{4}{10}*\frac{6}{10}=\frac{48}{100}\\w_2=\frac{10}{15}$

$Gini(D,A_{2})=\frac{5}{15} *0+\frac{10}{15}*\frac{48}{100}=0.32$

第三个选择房子 $A_3$ 这个特征
房子特征中有：有房子 $A_{31}$ 、无房子 $A_{32}$ 2个特征值。

D\|A3	有自己的房子	个数	是否同意贷款
D\|A3	有自己的房子	个数	否	是
D1	是	6	0	6
D2	否	9	3	6

那么，有房子 $D_1$ 的基尼数和权重： $Gini(D_1)=2*\frac{0}{6}*\frac{6}{6}=0 \\ w_1=\frac{6}{15}$

有房子 $D_2$ 的基尼数和权重： $Gini(D_2)=2*\frac{6}{9}*\frac{3}{9}=\frac{36}{81}\\w_2=\frac{9}{15}$

$Gini(D,A_{2})=\frac{6}{15} *0+\frac{9}{15}*\frac{36}{81}=0.27$

第四个选择信贷 $A_4$ 这个特征
信贷特征中有：信贷非常好 $A_{41}$ 、信贷好 $A_{42}$ 、信贷一般 $A_{43}$ 3个特征值。

D\|A4	信贷情况	个数	是否同意贷款
D\|A4	信贷情况	个数	否	是
D1	非常好	4	0	4
D2	好	6	2	4
D3	一般	5	4	4

1.以非常好和并不非常好分类：

那么，非常好 $D_1$ 的基尼数和权重： $Gini(D_1)=2*\frac{0}{4}*\frac{4}{4}=0 \\ w_1=\frac{4}{15}$

不非常好 $D_2$ 的基尼数和权重： $Gini(D_2)=2*\frac{5}{11}*\frac{6}{11}=\frac{48}{100}\\w_2=\frac{11}{15}$

$Gini(D,A_{41})=\frac{4}{15} *0+\frac{11}{15}*\frac{60}{121}=0.36$

2.以好和非好分类
$Gini(D,A_{42})=\frac{6}{15} *2*\frac{4}{6}*\frac{2}{6}+\frac{9}{15}*2*\frac{5}{9}*\frac{4}{9}=0.47$

3.以一般和非一般分类
$Gini(D,A_{43})=\frac{5}{15} *2*\frac{1}{5}*\frac{4}{5}+\frac{10}{15}*2*\frac{8}{10}*\frac{2}{10}=0.32$

可以看出，特征值一般的基尼指数最小，作为最优划分点。
把4个特征得出的基尼指数进行比较：

特征值	基尼指数
年龄	0.44
工作	0.32
房子	0.27
信贷情况	0.32

可以看出，特征房子对应的基尼指数最小，那么就可以作为最优特征绘制二叉树。

在这里插入图片描述
可以看出，有房子的都是同意贷款，那么没房子这里该怎么继续划分，继续对无房子的数据集进行统计，

ID	年龄	有工作	有自己的房子	信贷情况	类别
1	青年	否	否	一般	否
2	青年	否	否	好	否
3	青年	是	否	好	是
5	青年	否	否	一般	否
6	中年	否	否	一般	否
7	中年	否	否	好	否
13	老年	是	否	好	是
14	老年	是	否	非常好	是
15	老年	否	否	一般	否

按照年龄、工作、信贷情况来分类，可以得出：
1.在无房子数据集内，以年龄特征分类

年龄	个数	不同意贷款	同意贷款
青年	4	3	1
中年	2	2	0
老年	3	1	2

2.在无房子数据集内，以工作特征分类

工作	个数	不同意贷款	同意贷款
有工作	3	0	3
无工作	6	6	0

3.在无房子数据集内，以信贷情况特征分类

信贷情况	个数	不同意贷款	同意贷款
非常好	1	0	1
好	4	2	2
一般	4	4	0

不用分别计算就可以看出工作这个特征对应的分类非常明显，因此对应的基尼指数肯定最小，那么就可以继续选这个特征进行二叉树的分类。在这里插入图片描述

2.6 CART：回归树算法：输出是连续的（回归问题）

1.划分连续数据

既然是决策树，那么输出的一定就是叶子结点，对于 连续变量而言，可以按照一定的要求将连续变量进行划分。

以之前桃子例子来说：
输入：用 $[0, 0.5]$ 来表示由不甜到甜的程度
输出：用 $[1, 10]$ 来表示由不好吃到好吃的程度

甜度	0.05	0.15	0.25	0.35	0.45
好吃程度	5.5	7.6	9.5	9.7	8.2

在对数据划分时，就可以从甜度这个输入量来进行划分，但是要注意由于CART算法是二叉树，所以每次划分只能划分成两类，比如：甜度 $\leq 0.1$ 和甜度 $> 0.1$ 这样两类，然后可以再继续在甜度 $> 0.1$ 这个范围内在选择最优切分点继续划分。

在这里插入图片描述
右上角的角标数意味着分类的次数，右下角标数代表着所属的类，这就意味着，输出单元最终不只是 2个单元，也可以是多个单元。

2.如何生成回归树模型

假设将输入空间划分成 $M$ 个单元 $R_1,R_2,\cdots,R_m$ ，并在每个单元 $R_m$ 上有一个固定的输出值 $c_m$ ，回归树模型可以表示为： $f(x)=\sum_{m=1}^Mc_mI(x\in R_m)$
这里的 $f (x)$ 就是CART回归模型， $c_m$ 代表输出的类， $I(x\in R_m)$ 是指示性函数。
假设输入和输出变量如下：

输入	$R_1$	$R_2$	…	$R_m$
输出	$c_1$	$c_2$	…	$c_m$

$I(x\in R_m)$ 是指当 $x\in R_m$ 取 $1$ ， $x\notin R_m$ 取 $0$

这样就意味着，对于某个输出单元也就是类 $c_m$ 而言，当输入单元 $R_m$ 和它一致时就存在，如果不一致时，就没有。这样把所有输入单元对应的类求和之后，便是最终的回归树模型。

3.平方误差和最优输出

怎么找切分点？这时就需要通过平方误差最小化来找到最优切分点了。
选择第 $x^{(j)}$ 个变量和取 $s$ ，分别作为切分变量和切分点，并定义两个区域： $R_1(j,s)=x|x^{(j)}\leq s \\ R_2(j,s)=x|x^{(j)} > s$
用平方误差最小化来寻找最优切分变量 $j$ 和最优切分点 $s$ ： $\min_{j,s}\left[min_{c_1}\sum_{x_i\in R_1(j,s)}(y_i-c_1)^2+min_{c_2}\sum_{x_i\in R_2(j,s)}(y_i-c_2)^2\right]$
这个公式意味着，将输出变量按照输入变量分为了两类，然后要求出来每次分类后的各个分类的平方误差最小值之和，也就意味着整体的最小平方误差，平方误差最小，意味着分类和实际最吻合。其中： $\hat c_1=ave (y_i|x_i\in R_1(j,s))\\ \hat c_2=ave (y_i|x_i\in R_2(j,s))$
这里可以理解成，如果我们想要平方误差最小，那么就是将每次分类后的和设置为对应的每个区域内的输出变量的平均值。

4.停止条件

可以是将输出变量分为两个类，也可以是直到没有多余的样本点。
输出的就是一棵CART二叉树。

5.例题：桃子例题

甜度	0.05	0.15	0.25	0.35	0.45
好吃程度	5.5	7.6	9.5	9.7	8.2

1.以甜度特征进行回归计算
第一以甜度 $s = 0.1$ 进行划分
可以将表格里的连续数据划分成 $R_1$ 和 $R_2$ 两类：
$R_1$ 类是：

甜度	0.05
好吃程度	5.5

$R_2$ 类是：

甜度	0.15	0.25	0.35	0.45
好吃程度	7.6	9.5	9.7	8.2

可以得出： $\hat c_1=5.5 \\ \hat c_2=\frac{7.6+9.5+9.7+8.2}{4}=8.75$
接着代入平方误差公式中：

$\begin{aligned}&=\sum_{x_i\in R_1(j,s)}(y_i-c_1)^2+\sum_{x_i\in R_2(j,s)}(y_i-c_2)^2 \\&=0+(7.6-8.75)^2+(9.5-8.75)^2+(9.7-8.75)^2+(8.2-8.75)^2\\&=3.09\end{aligned}$

第二步以甜度 $s = 0.2$ 进行划分
计算出平方误差和结果为 $3.53$ 。

第三步以甜度 $s = 0.3$ 进行划分
计算出平方误差和结果为 $9.13$ 。

第四步以甜度 $s = 0.4$ 进行划分
计算出平方误差和结果为 $11.52$ 。

这样，从四个分类中，我们选取最小值，也就是当甜度 $s_1=0.1$ 时，作为最优切分点，同时输出的CART回归树模型就是： $f(x)=\begin{cases}5.5 &(s\leq 0.1)\\8.75 &(s > 0.1)\end{cases}$
当然我们还可以对 $s > 0.1$ 区域进行回归划分，这就要取决于你的停止条件，如果说是继续分成三类，那么就可以按照相同的思路进行计算。
通过对连续变量进行划分，就可以转换为离散的变量来进行计算，那么就和之前的分类树模型也是相通的方法，这也就是为什么常见的都是CART分类树模型。

CART的剪枝

1.损失函数

原理：根据剪枝前后的损失函数来决定是否剪枝，剪枝后，如果损失函数减小，则意味着可以剪枝。
损失函数正是用来度量预测错误程度的指标。
损失函数： $C_\alpha = C(T)+\alpha |T|$
第一部分 $C (T)$ 反映的是代价，是对训练数据的预测误差（比如基尼指数），也就是模型的拟合能力
第二部分 $∣ T ∣$ 反映的是模型的复杂度，体现的是泛化能力， $∣ T ∣$ 表示子树上叶子结点的个数，叶子结点越多，模型越复杂。
$\alpha$ 是一个决定拟合和泛化综合效果的参数。
当 $\alpha=0$ 时，模型仅由拟合决定，不考虑对未知数据的预测能力，所以这样得到是一棵最完整的决策树，泛化能力弱。
当 $\alpha=+\infty$ 时，得到的是单结点树，对于任何数据的泛化能力很强，但拟合效果差。
如何选取 $\alpha$ 至关重要。

2. $\alpha$ 的取值

可以将 $\alpha$ 从 $0\sim+\infty$ 划分成多个小区间，比如： $0\leq \alpha_0<\alpha_1<\cdots<\alpha_n<\alpha_{n+1}<+\infty$
这时，每一个 $\alpha$ 就对应着一棵决策树。接着，我们把这些 $\alpha$ 按照左闭右开的形式划成小区间。比如： $[\alpha_1,\alpha_2),[\alpha_2,\alpha_3),\cdots,[\alpha_n,\alpha_{n+1}),$
总共有 $n$ 个区间，每个小区间都对应着一个决策树，我们可以记成： $T_0,T_1,T_2,\cdots,T_n$
这里 $T_0$ 就代表了 $\alpha=0$ 时的完整的决策树，意味着没有剪枝。
接着，就是要从这些决策树里，找到最优的决策树。
假设现在我们有这么一棵子树，叫做 $T_t$
那么剪枝前的损失函数可以写成： $C_\alpha(T_t)=C(T_t)+\alpha|T_t|$
剪枝后变成了一个叶子结点，也就意味着此时 $∣ T ∣ = 1$ ，那么损失函数可以写成： $C_\alpha(T_t)=C(T_t)+\alpha$
接着，我们可以假设 $\alpha$ 从 $0$ 开始逐渐变大到 $+\infty$ ，意味着从高度拟合到高度泛化的变化趋势，可以得出在高度拟合和高度泛化时，所对应的损失函数都是非常大的。

而在这变化过程中，意味着剪枝前和剪枝后的会有一个临界值 $\alpha$ ，在这个临界值处，拟合和泛化的损失函数为最小。
这个值就可以联立两个方程求解出来： $\alpha=\frac{C(t)-C(T_t)}{|T_t|-1}$

3.算法解读

输入：CART算法生成的完整决策树
输出：最优决策树 $T_\alpha$ 。

第一步，设 $k=0,T=T_0$ 也就是从完整的决策树出发。
$k$ 代表的是迭代的次数，这里从0开始，也就意味着还没开始迭代，那么树也是完整的，从这里开始出发。

第二步，设 $\alpha=+\infty$ 因为后面我们要比较大小，当损失函数小的时候可以剪枝。
相当于由大至小开始比较。

第三步，自下而上的对各内部结点 $t$ 计算 $C(T_t),|T_t|$ ，以及 $g(t)=\frac{C(t)-C(T_t)}{|T_t|-1},\alpha=min(\alpha,g(t))$
这里的 $g (t)$ 代表了在这个结点对应的 $\alpha$ 值， $C (t)$ 代表了单结点时的预测误差， $C(T_t)$ 代表了子数时的预测误差。
注意：此处的预测误差与我们之前所介绍的预测错误率不同，它还可以包括平方损失、基尼指数等。

第四步，自上而下访问内部结点 $t$ ，如果有 $g(t)=\alpha$ ,则进行剪枝，并对叶结点 $t$ 以多数表决法决定类，得到树 $T$ 。

4.剪枝的例题

在这里插入图片描述

第一二步
设 $k=0,T=T_0$ 也就是从完整的决策树出发，设置 $\alpha=+\infty$
从这棵决策树上，我们可以看出有3个内部结点，分别是 $T_0,T_1,T_2$ ，对应的叶子结点有4个。其中绿色表示正类，红色表示负类。

第三四步
$g(t)=\frac{C(t)-C(T_t)}{|T_t|-1},\alpha=min(\alpha,g(t))$
第一轮，因为内部结点3个，我们可以把 $T_0,T_1,T_2$ 分别对应为 $t = 0, t = 1, t = 2$ ，对于 $C (t)$ 代表了单结点时的预测误差，这里因为我们选用的是预测错误率来计算。
对于 $T_0$ 子树而言，一共有17个样本点，其中8个正类，9个负类，如果按照多数表决法来设置单结点的话，那么应该设为负类，这样误判的个数就为8，同时还要乘以这棵子树中样本点占总体的权重。因此： $C(0)=\frac{17}{17}*\frac{8}{17}=\frac{8}{17}$

接着求 $C(T_0)$ ，可以看出在 $T_0$ 子树中，对应的4个叶子结点里，只有从左数第2个结点有1个误判。因此：
$C(T_0)=\frac{1}{17}$
代入计算：
$g(0)=\frac{C(0)-C(T_0)}{|T_0|-1}=\frac{\frac{8}{17}-\frac{1}{17}}{4-1}=\frac{7}{51}$
取：
$\alpha=min(\alpha,g(0))=min(+\infty,\frac{7}{51})=\frac{7}{51}$

对于 $T_1$ 子树而言，一共有9个样本点，其中7个正类，2个负类，如果按照多数表决法来设置单结点的话，那么应该设为正类，这样误判的个数就为2，同时还要乘以这棵子树中样本点占总体的权重。因此： $C(1)=\frac{9}{17}*\frac{2}{9}=\frac{2}{17}$

接着求 $C(T_1)$ ，可以看出在 $T_1$ 子树中，没有误判。因此：
$C(T_1)=0$
代入计算：
$g(1)=\frac{C(1)-C(T_1)}{|T_1|-1}=\frac{\frac{2}{17}-0}{3-1}=\frac{1}{17}$
取：
$\alpha=min(\alpha,g(1))=min(\frac{7}{51}，\frac{1}{17})=\frac{1}{17}$

对于 $T_2$ 子树而言，一共有8个样本点，其中7个正类，1个负类，如果按照多数表决法来设置单结点的话，那么应该设为正类，这样误判的个数就为1，同时还要乘以这棵子树中样本点占总体的权重。因此： $C(1)=\frac{8}{17}*\frac{1}{98}=\frac{1}{17}$

接着求 $C(T_2)$ ，可以看出在 $T_2$ 子树中，没有误判。因此：
$C(T_2)=0$
代入计算：
$g(2)=\frac{C(2)-C(T_2)}{|T_2|-1}=\frac{\frac{1}{17}-0}{2-1}=\frac{1}{17}$
取：
$\alpha=min(\alpha,g(2))=min(\frac{1}{51}，\frac{1}{17})=\frac{1}{17}$

可以看出 $g(2)=g(1)=\alpha=\frac{1}{17}$ ，，因此不妨对内部结点 $T_2$ 子树剪枝。
在这里插入图片描述
第二轮，按照上面的思路继续对 $T_0$ 和 $T_1$ 内部结点进行迭代计算。
对于 $T_0$ 子树而言，一共有17个样本点，其中8个正类，9个负类，如果按照多数表决法来设置单结点的话，那么应该设为负类，这样误判的个数就为8，同时还要乘以这棵子树中样本点占总体的权重。因此： $C(0)=\frac{17}{17}*\frac{8}{17}=\frac{8}{17}$

接着求 $C(T_0)$ ，可以看出在 $T_0$ 子树中，对应的3个叶子结点里，有2个误判。因此：
$C(T_0)=\frac{2}{17}$
代入计算：
$g(0)=\frac{C(0)-C(T_0)}{|T_0|-1}=\frac{\frac{8}{17}-\frac{2}{17}}{3-1}=\frac{3}{17}$
取：
$\alpha=min(\alpha,g(0))=min(\frac{1}{17},\frac{3}{17})=\frac{1}{17}$
注意：在第2轮中，此时要比较的 $\alpha$ 是第一轮中的结果，也就是 $\frac{1}{17}$

接着求 $C(T_1)$ ，可以看出在 $T_1$ 子树中，由于第一个叶结点属于正类，有1个误判。因此：
$C(T_1)=\frac{1}{17}$
代入计算：
$g(1)=\frac{C(1)-C(T_1)}{|T_1|-1}=\frac{\frac{2}{17}-\frac{1}{17}}{2-1}=\frac{1}{17}$
取：
$\alpha=min(\alpha,g(1))=min(\frac{1}{17},\frac{1}{17})=\frac{1}{17}$
可以看出，这里的 $T_1$ 子树对应的 $\alpha$ 是最小值，意味着对 $T_1$ 剪枝。
在这里插入图片描述
第三轮
按照上面的思路继续对 $T_0$ 结点进行迭代计算。

对于 $T_0$ 子树而言，一共有17个样本点，其中8个正类，9个负类，如果按照多数表决法来设置单结点的话，那么应该设为负类，这样误判的个数就为8，同时还要乘以这棵子树中样本点占总体的权重。因此： $C(0)=\frac{17}{17}*\frac{8}{17}=\frac{8}{17}$

接着求 $C(T_0)$ ，可以看出在 $T_0$ 子树中，对应的2个叶子结点里，由于这里拿正类单结点替代了左边，那么误判个数就变成了3个。因此：
$C(T_0)=\frac{3}{17}$
代入计算：
$g(0)=\frac{C(0)-C(T_0)}{|T_0|-1}=\frac{\frac{8}{17}-\frac{3}{17}}{2-1}=\frac{5}{17}$
取：
$\alpha=min(\alpha,g(0))=min(\frac{1}{17},\frac{3}{17})=\frac{1}{17}$
这里就可以看出， $T_0$ 子树对应的不是最小 $\alpha$ ，因此不剪枝。同时，根节点满足了两个叶子结点的停止条件，剪枝结束。

当然，对于树形结构比较复杂的决策树而言，可以继续增加迭代次数，最终采用交叉验证法将原始的决策树和每轮生成的Tree1、Tree2…等决策树中选取最优树形。

总结

算法	支持模型	树结构	特征选择	连续值处理	缺失值处理	剪枝
ID3	分类	多叉树	信息增益	不支持	不支持	不支持
C4.5	分类	多叉树	信息增益比	支持	支持	支持
CART	分类，回归	二叉树	基尼系数，均方差	支持	支持	支持