CART算法详解-优快云博客

本文链接：https://blog.youkuaiyun.com/codertc/article/details/78559479

概述

CART算法的提出比IDE3和C4.5还要早，它既可以应用于回归问题，也可以应用于分类问题。

相同于IDE3和C4.5，CART算法也由以下两步组成：
1. 决策树生成
2. 决策树剪枝

CART决策树的生成

回归树的生成

回归问题中，模型的输入输出都是连续的。
假设 $X$ 和 $Y$ 分别为输入和输出变量，给定训练数据集：

D = (x 1, y 1), (x 2, y 2), . . ., (x N, y N)

$D={(x_1,y_1),(x_2,y_2),...,(x_N,y_N)}$
回归树模型是什么样子的呢？
一个回归树对应着输入空间的一个划分，以及在划分的一个个小区域上面的输出值；输入一个样本时，将这个样本点抛到这个划分好的特征空间上面去，然后通过一层层的二分（二叉树）查找，找到这个样本点所在的小区域，然后把这个区域所对应的输出值（提前学到）输出。

用数学公式来表示一下。假设输入空间划分为 $M$ 个区域 $R_1,R_2,R_3,...,R_M$ ，并且在每个区域 $R_m$ 上面有一个固定的输出值 $c_m$ ，于是回归模型可以为：

f (x) = \sum m = 1 M c m I (x \in R m)

$f(x)=\sum_{m=1}^Mc_mI(x\in R_m)$
其中，

I (x \in R m) = {1 if x \in R m 0 else

$I(x\in R_m)= \begin{cases} 1\quad\text{if $x\in R_m$}\\ 0\quad\text{else} \end{cases}$
这就是回归决策树的模型，那么怎么学到这个模型呢？也就是说怎么获得对输入空间的划分呢？

先把公式给出再解释：

min j, s ⎡ ⎣ min c 1 \sum x i \in R 1 (j, s) (y i - c 1) 2 + min c 2 \sum x i \in R 2 (j, s) (y i - c 2) 2 ⎤ ⎦

$\min\limits_{j,s}\left[\min\limits_{c_1}\sum_{x_i\in R_1(j,s)}(y_i-c_1)^2+\min\limits_{c_2}\sum_{x_i\in R_2(j,s)}(y_i-c_2)^2\right]$
这就是求解回归二叉树的模型，其中，

j $j$ 表示选定第

j $j$ 个特征（输入变量向量的第

j $j$ 个维度），

s $s$ 表示在这个特征上选取的分界值，将按照这个分界值，将特征空间分为

R1(j,s),R2(j,s) $R_1(j,s),R_2(j,s)$ 两个区域：

R 1 (j, s) = {x | x (j) ⩽ s} R 2 (j, s) = {x | x (j) > s}

$R_1(j,s)=\{x|x^{(j)}\leqslant s\}\quad R_2(j,s)=\{x|x^{(j)}> s\}$
1.

minj,s $\min\limits_{j,s}$ 表示选取分界特征以及在该特征上的分界值，一旦选定了特征以及分界值，那么就选定了对输入空间的一次划分；
2.

minc1 $\min\limits_{c_1}$ 和

minc2 $\min\limits_{c_2}$ 表示在两个区域里面选取一个输出值。
3.

∑xi∈R1(j,s)(yi−c1)2 $\sum_{x_i\in R_1(j,s)}(y_i-c_1)^2$ 和

∑xi∈R2(j,s)(yi−c2)2 $\sum_{x_i\in R_2(j,s)}(y_i-c_2)^2$ 表示使用平方误差法来衡量两个区域各自的预测误差。

注意，这只是完成了一次划分，整个的算法过程应该是，遍历所有的特征（或者叫输入变量的切分变量 $j$ ），选定一个最优的特征及其分界值，将输入空间划分为两个区域；接着，重复上述划分过程，直到满足停止条件。

最小二乘回归树生成算法

输入：训练数据集 $D$
输出：回归树 $f(x)$
1.选择最优切分变量 $j$ 以及切分点 $s$ ，求解：

min j, s ⎡ ⎣ min c 1 \sum x i \in R 1 (j, s) (y i - c 1) 2 + min c 2 \sum x i \in R 2 (j, s) (y i - c 2) 2 ⎤ ⎦

$\min\limits_{j,s}\left[\min\limits_{c_1}\sum_{x_i\in R_1(j,s)}(y_i-c_1)^2+\min\limits_{c_2}\sum_{x_i\in R_2(j,s)}(y_i-c_2)^2\right]$
2.用选定的

(j,s) $(j,s)$ 划分区域并决定相应的输出值：

R 1 (j, s) = {x | x (j) ⩽ s} R 2 (j, s) = {x | x (j) > s}

$R_1(j,s)=\{x|x^{(j)}\leqslant s\}\quad R_2(j,s)=\{x|x^{(j)}> s\}$

c m^= 1 N \sum x i \in R m (j, s) y i, x \in R m, m = 1, 2

$\hat{c_m}=\frac{1}{N}\sum_{x_i\in R_m(j,s)}y_i,\quad x\in R_m,\quad m=1,2$
3.继续对两个子区域调用步骤1-2，直到满足停止条件。
4.将输入空间划分所得的

M $M$ 个区域

R1,R2,...,RM $R_1,R_2,...,R_M$ ，生成决策树：

f (x) = \sum m = 1 M c m^I (x \in R m)

$f(x)=\sum_{m=1}^{M}\hat{c_m}I(x\in R_m)$

分类树的生成

分类树与回归树的不同之处在于，回归树在选择特征和分界值时使用的标准是平方误差，而分类树在选择特征和分界值时使用的标准是基尼指数。

比基尼指数

给定一个变量的概率分布，基尼指数用来衡量变量的不确定性，基尼指数与不确定性正相关，与熵类似。

假设有 $K$ 个类，样本属于第 $k$ 类的概率为 $p_k$ ，则概率分布的基尼指数为：

G i n i (p) = \sum k = 1 K p k (1 - p k) = 1 - \sum k = 1 K p 2 k

$Gini(p)=\sum_{k=1}^Kp_k(1-p_k)=1-\sum_{k=1}^Kp_k^2$
对于给定的样本集合

D $D$ ，其基尼指数为：

G i n i (D) = 1 - \sum k = 1 K (| C k | | D |)

$Gini(D)=1-\sum_{k=1}^K\left(\frac{|C_k|}{|D|}\right)$
其中，

Ck $C_k$ 表示

D $D$ 中属于第

k $k$ 类的样本子集，

K $K$ 为类别的数量。

假设有样本集合 $D$ ，使用特征 $A$ 和该特征的某个取值 $a$ 将样本集合分为 $D_1$ 和 $D_2$ 两部分：

D 1 = {(x, y) \in D | A (x) = a}, D 2 = D - D 1

$D_1=\{(x,y)\in D|A(x)=a\},\quad D_2=D-D_1$
即

D1 $D_1$ 表示特征

A $A$ 是

a $a$ 的样本集合，其他的归到

D2 $D_2$ 中。
那么集合

D $D$ 关于

A(x)=a $A(x)=a$ 的基尼指数为：

G i n i (D, A a) = | D 1 | | D | G i n i (D 1) + | D 2 | | D | G i n i (D 2)

$Gini(D,A_a)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)$

分类树生成算法

输入：训练数据集 $D$ ，停止计算的条件
输出：分类树
1.针对所有特征的所有取值，计算其基尼系数；例如针对特征A即其取值a，计算 $Gini(D,A_a)$ 。
2.选择一个基尼系数最小的特征及取值组合 $(A,a)$ 作为最优特征及分界值，将训练集分为两部分，从现节点生成两个子节点，将训练数据集按照特征分配到两个子节点。
3.对两个子节点递归调用步骤1-2，知道满足停止条件。
4.返回分类树。