《统计学习方法》读书笔记-----决策树：CART算法

最新推荐文章于 2024-01-29 18:09:44 发布

fxlou

最新推荐文章于 2024-01-29 18:09:44 发布

阅读量859

点赞数

CC 4.0 BY-SA版权

分类专栏： machine learning

本文链接：https://blog.youkuaiyun.com/fxlou/article/details/79594947

machine learning 专栏收录该内容

15 篇文章

订阅专栏

本文介绍了CART模型的基本原理，包括回归树与分类树的生成算法。详细解释了如何通过平方误差最小化准则生成回归树，以及如何使用基尼指数选择最优特征值生成分类树。

0. 概述
分类与回归树（classification and regression tree, CART）模型由Breiman等人在1984年提出，是应用广泛的决策树学习方法，既可以用于分类也可以用于回归。
CART是在给定输入随机变量 $X$ 条件下输出随机变量 $Y$ 的条件概率分布的学习方法。主要由以下两步组成：
（1）决策树生成：基于训练数据集生成决策树，生成的决策树要尽量大。
（2）决策树剪枝：用验证数据集对已生成的树进行剪枝并选择最优子树，这时用损失函数最小作为剪枝的标注。

1. CART生成：
决策树的生成就是递归地构建二叉决策树的过程，对回归树用平方误差最小化准则，对分类树用基尼（Gini index）最小化准则，进行特征选择，生成二叉树。

1.1 回归树的生成
一个回归树对应着输入空间（特征空间）的一个划分以及在划分的单元上的输出值。假设已将输入空间划分为 $M$ 个单元 $R_1,R_2,...,R_M$ ，并且在每个单元 $R_m$ 上有一个固定的输出值 $c_m$ ，于是回归树模型可以表示为：

f (x) = \sum m = 1 M c m I (x \in R m)

$f(x)=\sum_{m=1}^M c_mI(x\in R_m)$
当输入空间的划分确定时，可以用平方误差

∑x∈Rm(yi−f(xi))2∑x∈Rm(yi−f(xi))2 $\sum_{x\in R_m}(y_i-f(x_i))^2$ 来表示回归树对于训练数据的预测误差，用平方误差最小的准则求解每个单元上的最优输出值。易知，单元

RmRm $R_m$ 上的

cmcm $c_m$ 的最优值

c^mc^m $\hat c_m$ 是

RmRm $R_m$ 上的所有输入实例

xixi $x_i$ 对应的输出

yiyi $y_i$ 的均值，即：

c^m = a v e (y i | x i \in R m)

$\hat c_m=ave(y_i|x_i\in R_m)$
问题是怎么对输入空间进行划分，这里采用启发式的方法，选择第

jj $j$ 个变量

x^{(j)}

$x^{(j)}$ 和它的取值

ss $s$ 作为切分变量和切分点，并定义两个区域：

R_{1} (j, s) = {x | x^{(j)} \leq s}

$R_1(j,s)={\{x|x^{(j)}\leq s}\}$ 和

R2(j,s)={x|x(j)>s}R2(j,s)={x|x(j)>s} $R_2(j,s)=\{x|x^{(j)}>s\}$

然后寻找最优切分变量 $j$ 和最优切分点 $s$ ，求解：
$min_{j,s}[min_{c1}\sum _{x_i\in R_1(j,s)}(y_i-c1)^2+min_{c2}\sum _{x_i\in R_2(j,s)}(y_i-c2)^2]$
对固定输入变量 $j$ 可以找到最优切分点 $s$ 。
$\hat c_1=ave(y_i|x_i \in R_1(j,s))$ 和 $\hat c_2=ave(y_i|x_i\in R_2(j,s))$
历遍所有输入变量，找到最优的切分变量 $j$ ，构成一个对 $(j,s)$ 。依次将输入空间划分为两个区域，并重复以上过程。

最小二乘回归树生成算法
输入：训练数据集 $D$
输出：回归树 $f(x)$
在训练数据集所在输入空间中，递归地将每个区域划分为两个子区域，并决定每个子区域上的输出值，构建二叉决策树：
（1）选择最优切分变量 $j$ 与切分点 $s$ ，求解

m i n j, s [m i n c 1 \sum x i \in R 1 (j, s) (y i - c 1) 2 + m i n c 2 \sum x i \in R 2 (j, s) (y i - c 2) 2]

$min_{j,s}[min_{c1}\sum _{x_i\in R_1(j,s)}(y_i-c1)^2+min_{c2}\sum _{x_i\in R_2(j,s)}(y_i-c2)^2]$
遍历变量

jj $j$ ，对固定的切分变量

j

$j$ 扫描切分点

ss $s$ ，选择使上式达到最小值的对

（ j, s ）

$（j,s）$
（2）用选定的对

（j,s）（j,s） $（j,s）$ 划分区域并决定相应的输出值：

R 1 (j, s) = {x | x (j) \leq s} ， R 2 (j, s) = {x | x (j) > s}

$R_1(j,s)={\{x|x^{(j)}\leq s}\}， R_2(j,s)=\{x|x^{(j)}>s\}$

c^m = 1 N m \sum x i \in R m (j, s) y i, x \in R m, m = 1, 2

$\hat c_m=\frac{1}{N_m}\sum_{x_i\in R_m(j,s)}y_i,x\in R_m, m=1,2$
（3）继续对两个子区域调用步骤（1），（2），直至满足停止条件。
（4）将输入空间划分为

MM $M$ 个区域

R_{1}, R_{2}, . . ., R_{m}

$R_1,R_2,...,R_m$ ，生成决策树：

f (x) = \sum m = 1 M c^m I (X \in R m)

$f(x)=\sum_{m=1}^M \hat c_mI(X\in R_m)$

1.2 分类树的生成
分类树采用基尼指数选择最优特征值，同时决定该特征的最优二值切分点。
基尼指数的定义：
分类问题中，假设有 $K$ 个类，样本点属于第 $k$ 类的概率为 $p_k$ ，则概率分布的基尼指数定义为：

G i n i (p) = \sum k = 1 K p k (1 - p k) = 1 - \sum p = 1 K p 2 k

$Gini(p)=\sum_{k=1}^Kp_k(1-p_k)=1-\sum_{p=1}^Kp_k^2$

如果样本集合 $D$ 根据特征 $A$ 是否取某一可能值 $a$ 被分割成 $D_1$ 和 $D_2$ 两部分，即：

D 1 = {(x, y) \in D | A (x) = a}, D 2 = D - D 1

$D_1=\{(x,y)\in D|A(x)=a\}, D_2=D-D_1$
则在特征

AA $A$ 的条件下，集合

D

$D$ 的基尼系数定义为

G i n i (D, A) = D 1 D G i n i (D 1) + D 2 D G i n i (D 2)

$Gini(D,A)=\frac{D_1}{D}Gini(D_1)+\frac{D_2}{D}Gini(D_2)$
基尼指数

Gini(D)Gini(D) $Gini(D)$ 表示集合的不确定性，基尼指数

Gini(D,A)Gini(D,A) $Gini(D,A)$ 表示经

A=aA=a $A=a$ 分割后集合的不确定性，基尼指数越大，样本集合的不确定性也就越大，这一点与熵相似。

决策树生成算法
输入：训练数据集 $D$ ，停止计算的条件；
输出：CART决策树
根据训练数据集，从根节点开始，递归地对每个结点进行以下操作，构建二叉决策树：
（1）设结点的训练数据集为 $D$ ，计算现有特征对该数据集的基尼指数。此时，对每一个特征 $A$ ，对其可能取的每一个值 $a$ ，根据样本点对 $A=a$ 的测试为“是”或“否”将 $D$ 分割为 $D_1$ 和 $D_2$ 两部分，利用