决策树学习详解-优快云博客

本文大部分参考李航博士的《统计学习方法》并加入少量个人部分理解，用于个人巩固提高，并非原创。

决策树（decision tree）是一种基本的分类与回归方法。

5.1 决策树学习

决策树学习，学习的目标是根据给定的训练数据集构建一个决策树模型，使它能够对实例进行正确的分类。从另外的角度看，决策树学习是由训练数据集估计条件概率模型。

损失函数
决策树学习的损失函数通常是 正则化的极大似然函数，决策树学习的策略是以损失函数为目标函数的最小化，而现实中，选取最优决策树是NP完全问题，通常采用 启发式方法 近似求解，得到次最优决策树。

决策树算法，通常是递归地选择最优特征进行数据分割、构建决策树以及为了提升泛化能力进行决策树剪枝，即 特征选择、决策树的生成 和 决策树的剪枝。

5.2 特征选择

特征选择在于选取对训练数据具有分类能力的特征，可以提高决策树学习的效率。
通常特征选择的准则是 信息增益（ID3 算法） 和 信息增益比（C4.5 算法）。

5.2.1 信息增益

在信息论与概率统计中，熵 $(entropy)$ 是表示随机变量不确定性的度量。设 $X$ 是一个取有限个值的离散随机变量，其概率分布为

P (X = x_{i}) = p_{i}, i = 1, 2, . . ., n

$P(X = x_i) = p_i, i = 1,2,...,n$
则随机变量

XX $X$ 的熵定义为

H (X) = - \sum_{i = 1}^{n} p_{i} \log p_{i}

$H(X) = -\sum_{i=1}^{n} p_i \log p_i$

若 $p_i = 0$ ,则定义 $0 \log 0 = 0$ 。通常上式中的对数以2为底或以 $e$ 为底（自然对数），这时熵的单位分别称为比特或纳特。

因为熵只依赖 $X$ 的分布，而与 $X$ 的取值无关，所以也可将 $X$ 的熵记作

H (p) = - \sum i = 1 n p i log p i

$H(p) = -\sum_{i=1}^{n} p_i \log p_i$

熵越大，随机变量的不确定性就越大。

设有随机变量 $(X,Y)$ ,其联合概率分布为

P (X = x i, Y = y i) = p i j, i = 1, 2, . . ., n; j = 1, 2, . . ., m

$P(X=x_i,Y=y_i) = p_{ij}, i=1,2,...,n;j=1,2,...,m$
条件熵

H(Y|X)H(Y|X) $H(Y|X)$ 表示在已知随机变量

XX $X$ 的条件下随机变量

Y

$Y$ 的不确定性。
随机变量

XX $X$ 给定的条件下随机变量

Y

$Y$ 的条件熵

H(Y|X)H(Y|X) $H(Y|X)$ ，定义为

XX $X$ 给定条件下

Y

$Y$ 的条件概率分布的熵对

XX $X$ 的数学期望

H (Y | X) = \sum_{i = 1}^{n} p_{i} H (Y | X = x_{i})

$H(Y|X) = \sum_{i=1}^{n} p_i H(Y|X=x_i)$

这里， $p_i = P(X=x_i),i=1,2,...,n$

当熵和条件熵中的概率由数据估计（特别是极大似然估计）得到时，所对应的熵与条件熵分别称为 经验熵 和 经验条件熵

信息增益：

表示得知特征 $X$ 的信息而使得类 $Y$ 的信息的不确定性减少的程度。
特征 $A$ 对于训练集数据 $D$ 的信息增益 $\mathbf g(D,A)$ ，定义为集合 $D$ 的经验熵 $H(D)$ 与特征 $A$ 给定条件下 $D$ 的经验条件熵 $H(D|A)$ 之差，即

g (D, A) = H (D) - H (D | A)

$\mathbf g(D,A) = H(D) - H(D|A)$

一般地，熵 $H(Y)$ 与条件熵 $H(Y|X)$ 之差称为 互信息 。决策树学习中的信息增益等价于训练数据集中类与特征的互信息。

根据信息增益准则的特征选择方法是：对训练数据集（或子集） $D$ ，计算其每个特征的信息增益，并比较他们的大小，选择信息增益最大的特征。

算法：（信息增益的算法）

输入：训练集 $D$ 和特征 $A$ ；
输出：特征 $A$ 对训练数据集 $D$ 的信息增益 $\mathbf g(D,A)$ 。
（1）计算数据集 $D$ 的信息熵 $H(D)$

H (D) = - \sum k = 1 K | C k | | D | log 2 | C k | | D |

$H(D) = -\sum_{k=1}^{K} \frac{|C_k|}{|D|} \log_2 \frac{|C_k|}{|D|}$
（2）计算特征

AA $A$ 对数据集

D

$D$ 的经验条件熵

H(D|A)H(D|A) $H(D|A)$

H (D | A) = - \sum i = 1 n | D i | | D | H (D i) = - \sum k = 1 K | D i k | | D i | log 2 | D i k | | D i |

$H(D|A) = -\sum_{i=1}^{n} \frac{|D_i|}{|D|}H(D_i) =-\sum_{k=1}^{K} \frac{|D_{ik}|}{|D_i|} \log_2 \frac{|D_{ik}|}{|D_i|}$

公式的含义是对于给定的特征 $A$ 所划分的每个区间 $D_i$ ，计算他们的经验熵的数学期望。
根据特征 $A$ 的取值将 $D$ 划分为 $n$ 个子集 $D_1,D_2,...,D_n$ ， $|D_i|$ 为 $D_i$ 的样本个数，记子集 $D_i$ 中所属类 $C_k$ 的样本的集合为 $D_{ik}$ 。

（3）计算信息增益

g (D, A) = H (D) - H (D | A)

$\mathbf g(D,A) = H(D) - H(D|A)$

信息增益比：
以信息增益作为划分数据集的特征，存在偏向于取值最多的特征的问题，使用 信息增益比 可以对这一问题进行校正。
特征 $A$ 对训练数据集 $D$ 的信息增益比 $\mathbf g_R(D,A)$ 定义为其信息增益 $\mathbf g(D,A)$ 与训练数据集 $D$ 关于特征 $A$ 的值的熵 $H_A(D)$ 之比，即

g R (D, A) = g ( D , A ) H A ( D )

$\mathbf g_R(D,A) = \frac {\mathbf g(D,A)}{H_A(D)}$

其中， $H_A(D) = -\sum_{i=1}^{n} \frac{|D_i|}{|D|} \log_2 \frac{|D_i|}{|D|}$ ， $n$ 是特征 $A$ 取值的个数。

5.3 决策树的生成

5.3.1 ID3 算法

ID3 算法的核心是在决策树各个结点上应用信息增益准则选择特征，递归地构建决策树。
具体方法是：从根结点开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点；再对子结点递归地调用以上方法，构建决策树；直到所有特征的信息增益均很小或没有可以选择为止。

算法：ID3 算法
输入：训练数据集 $D$ ，特征集 $A$ ，阈值 $\xi$ ；
输出：决策树 $T$
（1）若 $D$ 中所有实例属于同一类 $C_k$ ，则 $T$ 为单结点树，并将类 $C_k$ 作为该结点的类标志，返回 $T$ ；
（2）若 $A=\varnothing$ ，则 $T$ 为单结点树，并将 $D$ 红实例数最大的类 $C_k$ 作为该结点的类标记，返回 $T$ ；
（3）否则，计算A中各特征对 $D$ 的信息增益，选择信息增益最大的特征 $A_g$ ；
（4）若 $A_g$ 的信息增益小于阈值 $\xi$ ，则置 $T$ 为单结点树，并将 $D$ 中实例数最大的类 $C_k$ 作为该结点的类标记，返回 $T$ ；
（5）否则，对 $A_g$ 的每一种可能值 $a_i$ ，依 $A_g = a_i$ 将 $D$ 分割为若干非空子集 $D_i$ ，将 $D_i$ 中实例数最大的类作为标记，构建子结点，由结点及其子结点构成树 $T$ ，返回 $T$ ；
（6）对第 $i$ 个子结点，以 $D_i$ 为训练集，以 $A-\{A_g\}$ 为特征集，递归地调用步（1）—步（5），得到子树 $T_i$ ，返回 $T_i$ 。

算法：C4.5 算法

除 C4.5 在生成的过程中，用 信息增益比 来选择特征外，其余步骤均与 ID3 算法相同。

5.4 决策树的剪枝

为了防止决策树模型因模型过于复杂而出现过拟合的情况，需要对策树模型进行剪枝操作。
决策树的剪枝往往通过 极小化 决策树整体的 损失函数 或 代价函数 来实现。
设树 $T$ 的叶结点个数为 $T$ ， $t$ 是树 $T$ 的叶结点，该叶结点有 $N_t$ 个样本点，其中 $k$ 类的样本点有 $N_{tk}$ 个， $k = 1,2,...,K$ ， $H_t(T)$ 为叶结点 $t$ 上的经验熵， $\alpha \ge 0$ 为参数，则决策树学习的损失函数可以定义为

C α (T) = \sum t = 1 | T | N t H t (T) + α | T |

$C_{\alpha}(T) = \sum_{t=1}^{|T|} N_t H_t(T) + \alpha|T|$

其中经验熵为
$H t (T) = - \sum k N t k N t log N t k N t$ $H_t(T) = -\sum_{k} \frac{N_{tk}}{N_t} \log \frac{N_{tk}}{N_t}$

损失函数前一项 $\sum_{t=1}^{|T|} N_t H_t(T)$ 为 各结点的熵值加权和 分类越好值越小相当于经验误差，后一项 $\alpha|T|$ 叶结点数越多越复杂，其值也就越大，相当于罚项，结构风险最小化。
在损失函数中，将右端第一项记作

C (T) = \sum t = 1 | T | N t H t (T) = - \sum t = 1 | T | \sum k = 1 K N t k log N t k N t

$C(T) = \sum_{t=1}^{|T|} N_t H_t(T) = -\sum_{t=1}^{|T|}\sum_{k=1}^{K}N_{tk}\log \frac{N_{tk}}{N_t}$
这时有

C α (T) = C (T) + α | T |

$C_{\alpha}(T) = C(T) + \alpha|T|$

$C(T)$ 表示模型对训练数据的预测误差， $|T|$ 表示模型复杂度。

剪枝，就是当 $\alpha$ 确定时，选择损失函数最小的模型，即损失函数最小的决策树。
损失函数的极小化等价于正则化的极大似然估计，所以损失函数最小化原则进行剪枝就是用正则化的极大似然估计进行模型选择。

算法（树的剪枝算法）
输入：生成算法产生的整个树 $T$ ，参数 $\alpha$ ；
输出：修剪后的子树 $T_{\alpha}$
（1）计算每个结点的熵
（2）递归地从树的叶结点向上回缩
设一组叶结点回缩到其父节点之前和之后的整体树分别为 $T_B$ 和 $T_A$ ，其对应的损失函数值分别为 $C_{\alpha}(T_B)$ h和 $C_{\alpha}(T_A)$ ，如果

C α (T A) \leq C α (T B)

$C_{\alpha}(T_A) \le C_{\alpha}(T_B)$
则进行剪枝，即将其父节点变为新的叶结点。
（3）返回（2）直到不能继续为止，得到损失函数最小的子树

TαTα $T_{\alpha}$ 。

$C_{\alpha}(T_A) \le C_{\alpha}(T_B)$ 只考虑两个树的损失函数的差，其计算可以在局部进行，可以由一种动态规划的算法实现。

5.5 $CART$ 算法（分类与回归树）

CART 是在给定随机变量 $X$ 条件下输出随机变量 $Y$ 的条件概率分别的学习方法。
CART 假设决策树是 二叉树 ，内部结点特征的取值为 “是” 或 “否”，左分支是取值为“是”的分支，右分支是取值为“否”的分支，这样的决策树等价于递归地二分每个特征，将输入空间即特征空间划分为有限个单元，并在这些单元上确定预测的概率分布。
CART 算法由以下两步组成：
（1）决策树的生成：基于训练数据，生成的决策树尽可能大。
（2）决策树剪枝：选取损失函数最小作为剪枝的标准。

5.5.1 CART 生成

1. 回归树的生成（基于平均误差最小化）

假设 $X$ 和 $Y$ 分别为输入和输出变量，并且 $Y$ 是连续变量，给定训练数据集

D = {(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{N}, y_{N})}

$D = \{ (x_1,y_1),(x_2,y_2),...,(x_N,y_N) \}$

那么如何生成回归树？类似地，选择一个划分标准，在这里是回归预测，因此对于连续数值预测准确度的评判考虑最小平方误差，因为在非叶子结点时，是没有预测值的，这时候计算最小平方误差可以用划分区域内所有点的均值计算误差，这一点下面有讲。

一个回归树对应着输入空间（即特征空间）的一个划分以及在划分的单元上的输出值。假设已将输入空间划分为 $M$ 个单元 $R_1,R_2,...,R_M$ ，并且在每个单元 $R_m$ 上有一个固定的输出值 $c_m$ ，于是回归树模型可表示为

f (x) = \sum m = 1 M c m I (x \in R m)

$f(x) = \sum_{m=1}^{M} c_m I(x \in R_m)$
当输入空间的划分确定时，可以用 平方误差

∑xi∈Rm(yi−f(xi))2∑xi∈Rm(yi−f(xi))2 $\sum_{x_i \in R_m} (y_i - f(x_i))^2$ 来表示回归树对训练数据的误差，用平方误差最小的准则求解每个单元上的最优输出值。易知，单元

RmRm $R_m$ 上的

cmcm $c_m$ 的最优值

c^mc^m $\hat c _m$ 是

RmRm $R_m$ 上的所有输入实例

xixi $x_i$ 对应的输出

yiyi $y_i$ 的均值，即

c^m = a v e (y i | x i \in R m)

$\hat c_m = ave(y_i|x_i \in R_m)$

然后，用 启发式 的方法，选择第 $j$ 个变量 $x^{(j)}$ 和它取的值 $s$ ，作为切分变量和切分点，并定义两个区域：

R_{1} (j, s) = {x | x^{(j)} \leq s}; R_{2} (j, s) = {x | x^{(j)} > s}

$R_1(j,s) = \{x|x^{(j)} \le s\} ; R_2(j,s) = \{x|x^{(j)} \gt s\}$
然后寻找最优切分变量

jj $j$ 和切分点

s

$s$ ，具体地，求解

min j, s [min c 1 \sum x i \in R 1 (j, s) (y i - c 1) 2 + min c 2 \sum x i \in R 2 (j, s) (y i - c 2) 2]

$\min_{j,s} \Biggl[ \min_{c_1} \sum_{x_i \in R_1(j,s)} (y_i - c_1)^2 + \min_{c_2} \sum_{x_i \in R_2(j,s)} (y_i - c_2)^2 \Biggl]$
对固定输入变量

jj $j$ 可以找到最优切分点

s

$s$ 。

c^1 = a v e (y i | x i \in R 1 (j, s)); c^2 = a v e (y i | x i \in R 2 (j, s))

$\hat c_1 = ave(y_i|x_i \in R_1(j,s));\hat c_2 = ave(y_i|x_i \in R_2(j,s))$
遍历所有输入变量，找到最优的切分变量

jj $j$ ，构成一个对

(j, s)

$(j,s)$ 。依次将输入空间划分为两个区域，接着，对每个区域重复上述划分，直到满足停止条件为止。得到的回归树也叫 最小二乘回归树 。

算法：（最小二乘回归树生成算法）
输入：训练数据集 $D$ ;
输出：回归树 $f(x)$

在训练数据集所在的输入空间中，递归地将每个区域划分为两个子区域并决定每个子区域的输出值没构建二叉决策树：
（1）选择最优切分变量 $j$ 与切分点 $s$ ，

min j, s [min c 1 \sum x i \in R 1 (j, s) (y i - c 1) 2 + min c 2 \sum x i \in R 2 (j, s) (y i - c 2) 2]

$\min_{j,s} \Biggl[ \min_{c_1} \sum_{x_i \in R_1(j,s)} (y_i - c_1)^2 + \min_{c_2} \sum_{x_i \in R_2(j,s)} (y_i - c_2)^2 \Biggl]$
遍历变量

jj $j$ ，对固定的切分变量

j

$j$ 扫描切分点

ss $s$
，使得上式达到最小值的对

(j, s)

$(j,s)$ 。
（2）用选定的对

(j,s)(j,s) $(j,s)$ 划分区域并决定相应的输出值：

R 1 (j, s) = {x | x (j) \leq s}; R 2 (j, s) = {x | x (j) > s}

$R_1(j,s) = \{x|x^{(j)} \le s\} ; R_2(j,s) = \{x|x^{(j)} \gt s\}$

c^m = 1 N m \sum x i \in R m (j, s) y i, x \in R m, m = 1, 2

$\hat c_m = \frac {1}{N_m} \sum_{x_i \in R_m(j,s)} y_i , x \in R_m,m=1,2$
（3）继续对两个子区域调用步骤（1），（2），直到满足停止条件。
（4）将输入空间划分为

MM $M$ 个区域

R_{1}, R_{2}, . . ., R_{M}

$R_1,R_2,...,R_M$ ，生成决策树：

f (x) = \sum m = 1 M c^m I (x \in R m)

$f(x) = \sum_{m=1}^{M} \hat c_m I(x \in R_m)$

2. 分类树的生成（基于基尼指数最小化）

基尼指数：

分类问题中，假设有 $K$ 个类，样本点属于第 $k$ 个类的概率为 $p_k$ ，则概率分布的基尼指数定义为

G i n i (p) = \sum k = 1 K p k (1 - p k) = 1 - \sum k = 1 K p 2 k

$Gini(p) = \sum_{k=1}^{K} p_k(1-p_k) = 1- \sum_{k=1}^{K} p_k^2$
对于二分类问题，若样本点属于第1个类的概率是

pp $p$ ，则概率分布的基尼指数为

G i n i (p) = 2 p (1 - p)

$Gini(p) = 2p(1-p)$
对于给定的样本集合

DD $D$ ，其基尼指数为

G i n i (D) = 1 - \sum_{k = 1}^{K} (\frac{| C_{k} |}{| D |})^{2}

$Gini(D) = 1 - \sum_{k=1}^{K} \Biggl( \frac {|C_k|}{|D|}\Biggl)^2$

这里， $C_k$ 是 $D$ 中属于第 $k$ 类的样本子集， $K$ 是类的个数。

如果样本集合 $D$ 根据特征 $A$ 是否取某一个可能值 $a$ 被分割为 $D_1$ 和 $D_2$ 两部分，即

D 1 = {(x, y) \in D | A (x) = a}, D 2 = D - D 1

$D_1 = \{(x,y) \in D | A(x) = a\} ,D_2 = D - D_1$
则在特征

AA $A$ 的条件下，集合

D

$D$ 的基尼指数定义为

G i n i (D, A) = | D 1 | | D | G i n i (D 1) + | D 2 | | D | G i n i (D 2)

$Gini(D,A) = \frac {|D_1|}{|D|} Gini(D_1) + \frac {|D_2|}{|D|} Gini(D_2)$

基尼指数 $Gini(D)$ 表示集合 $D$ 的不确定性，基尼指数 $Gini(D,A)$ 表示经 $A = a$ 分割后集合 $D$ 的不确定性，和熵类似，基尼指数越大，样本集合的不确定性就越大。

算法：CART 生成算法（基于基尼指数）

输入：训练数据集 $D$ ，停止计算的条件
输出：CART 决策树

（1）设结点的训练数据集为 $D$ ，计算现有特征对该训练集的基尼指数。此时，对每一个特征 $A$ ，对其可能取的每个值 $a$ ，根据样本点对 $A=a$ 的测试为 “是” 或 “否” 将 $D$ 分割为 $D_1$ 和 $D_2$ 两部分，利用 $Gini (D,A)$ 计算 $A = a$ 的基尼指数。
（2）在所有可能的特征 $A$ 以及它们所有可能的切分点 $a$ 中，选择基尼指数最小的特征及其对应的切分点作为最优特征和最优切分点。依最优特征与最优切分点，从现结点生成两个子结点，将训练数据集依特征分配到两个子结点中去。
（3）对两个子结点递归调用（1），（2），直到满足停止条件。
（4）生成 CART 决策树。

5.5.2 CART 剪枝

CART 决策树剪枝由两步组成：首先从生成算法产生的决策树 $T_0$ 底端开始不断剪枝，直到 $T_0$ 的根结点，形成一个子树序列 $\{ T_0,T_1,...,T_n \}$ ；然后通过 交叉验证法 在独立的验证数据集上对子树序列进行测试，从中选择最优的子树。

1. 剪枝，形成一个子树序列

在剪枝过程中，计算子树的损失函数：

C α (T) = C (T) + α | T |

$C_{\alpha}(T) = C(T) + \alpha |T|$
对固定的

αα $\alpha$ ，一定存在使损失函数最小的子树

TαTα $T_{\alpha}$ ，容易验证这样的最优子树是唯一的。当

αα $\alpha$ 大的时候，最优子树偏小；当

αα $\alpha$ 小的时候，最优子树偏大。

可以用递归的方法对树进行剪枝，将 $\alpha$ 从小增大， $0 = \alpha_0 < \alpha_1 < ... <\alpha_n < +\infty$ ，产生一系列的区间 $[\alpha_i ,\alpha_{i+1}),i=0,1,...,n;$ ，剪枝得到的子树序列对应着 $\alpha \in [\alpha_i ,\alpha_{i+1}),i=0,1,...,n;$ 的最优子树序列 $\{ T_0,T_1,...,T_n \}$ ，序列中的子树是嵌套的。

具体地，从整体树 $T_0$ 开始剪枝。对 $T_0$ 的任意内部结点 $t$ ，以 $t$ 为单结点树的损失函数是

C α (t) = C (t) + α

$C_{\alpha}(t) = C(t) + \alpha$
以

tt $t$ 为根结点的子树

T_{t}

$T_t$ 的损失函数是

C α (T t) = C (T t) + α | T t |

$C_{\alpha}(T_t) = C(T_t) + \alpha |T_t|$
当

α=0α=0 $\alpha = 0$ 及

αα $\alpha$ 充分小时，有不等式

C α (T t) < C α (t)

$C_{\alpha}(T_t) < C_{\alpha}(t)$
当

αα $\alpha$ 增大时，在某一

αα $\alpha$ 有

C α (T t) = C α (t)

$C_{\alpha}(T_t) = C_{\alpha}(t)$
当

αα $\alpha$ 再增大时，

Cα(Tt)>Cα(t)Cα(Tt)>Cα(t) $C_{\alpha}(T_t) > C_{\alpha}(t)$ ，只要

α=C(t)−C(Tt)|Tα|−1α=C(t)−C(Tt)|Tα|−1 $\alpha = \frac{C(t) - C(T_t)}{|T_{\alpha}| - 1}$ ，

TtTt $T_t$ 与

tt $t$ 有相同的损失函数值，而

t

$t$ 的结点少，因此

tt $t$ 比

T_{t}

$T_t$ 更可取，对

TtTt $T_t$ 进行剪枝。

为此，对 $T_0$ 中每一内部结点 $t$ ，计算

g (t) = \frac{C (t) - C (T_{t})}{| T_{α} | - 1}

$g(t) = \frac{C(t) - C(T_t)}{|T_{\alpha}| - 1}$
它表示剪枝后整体损失函数下降的程度。在

T0T0 $T_0$ 中剪去

g(t)g(t) $g(t)$ 最小的

TtTt $T_t$ ，将得到的子树作为

T1T1 $T_1$ ，同时将最小的

g(t)g(t) $g(t)$ 设为

α1α1 $\alpha_1$ ，

T1T1 $T_1$ 为区间

[α1,α2)[α1,α2) $[\alpha_1,\alpha_2)$ 的最优子树。

如此剪枝下去，直到得到根结点。在这一过程中，不断地增加 $\alpha$ 的值，产生新的区间。

2. 在剪枝得到的子树序列 $T_0,T_1,...,T_n$ 中通过交叉验证选取最优子树 $T_a$

具体地，利用独立的验证数据集，测试子树序列 $T_0,T_1,...,T_n$ 中各棵子树的 平方误差 或 基尼指数 。平方误差或基尼指数最小的决策树被认为是最优的决策最优子树。在子树序列中，每棵 $T_0,T_1,...,T_n$ 都对应于一个参数 $\alpha_1,\alpha_2,...,\alpha_n$ 。所以，当最优子树 $T_k$ 确定时，对应的 $\alpha_k$ 也确定了，即得到最优决策树 $T_{\alpha}$ 。