笔记-CART

最新推荐文章于 2025-08-19 13:45:29 发布

K_Albert

最新推荐文章于 2025-08-19 13:45:29 发布

阅读量482

点赞数

CC 4.0 BY-SA版权

分类专栏：统计学习方法文章标签： CART 决策树统计学学习方法

本文链接：https://blog.youkuaiyun.com/K_Albert/article/details/78282498

统计学习方法专栏收录该内容

4 篇文章

订阅专栏

本文介绍了CART算法的基础概念，包括其在分类与回归任务中的应用。详细解释了CART算法生成决策树的过程，并讨论了回归树和分类树的具体实现方法。此外，还探讨了剪枝策略以提高模型的泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.CART

分类与回归树(classification and regression tree)是决策树算法的一种，既可以用于分类，也可以用于回归。CART假设决策树是二叉树，其结点特征取值只有“是”和“不是”，这样的决策树相当于递归的二分每个特征，CART算法：

(1)决策树生成：通过训练数据集生成决策树，越大越好。

(2)决策树剪枝：使用验证数据集对决策树进行剪枝，选出最优的子树，同样是损失函数最小化为目标。

2.CART回归

一个回归树对应着对输入空间（特征空间）的划分以及划分的单元上的输出。

回归树的生成：

输入随机变量 $X,Y$ , $Y$ 是连续变量，输入数据集

D = (x 1, y 1), (x 2, y 2), \dots, (x n, y n)

$D={(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)}$

输入空间可划分为有限个区域 $R_1,R_2,\cdots,R_M$ , $x\in R_m$ 上的输出为 $c_m$ ,所以回归树模型可表示为：

f (x) = \sum i = 1 n c m I (x i \in R m)

$f(x)=\sum_{i=1}^n c_mI(x_i\in R_m)$

用平方方差 $sum_{x_i \in R_m}(y_i-f(x_i))^2$ 来表示回归树对于训练数据的预测误差，求平方方差最小来求每个区域上最优的输出。易知， $R_m$ 上的最优输出 $\hat c_m=ave(y_i|x_i\in R_m)$ .

输入空间可以划分，那么如何划分呢？采用启发式算法，对于变量 $x^{(j)}$ 和它的值 $s$ ,定义两个区域

R 1 (j, s) = {x | x (j) \leq S}, R 2 (j, s) {x | x (j) > S}

$R_1(j,s)=\{x|x^{(j)}\le S\},R_2(j,s)\{x|x^{(j)}> S\}$

求解，

m i n j, s (m i n c 1 \sum x i \in R 1 (y i - c 1) 2 + m i n c 2 \sum x i \in R 2 (y i - c 2) 2)

$min_{j,s}(min_{c_1}\sum_{x_i\in R_1}(y_i-c_1)^2+min_{c_2}\sum_{x_i\in R_2}(y_i-c_2)^2)$

当 $j$ 给定时，可以求出最优的切分点 $s$ , 遍历所有的变量，得到 $(j,s)$ ,得到最优切分变量和切分点。将输入空间分成两个子区域，然后依次对两个子区域进行划分，直到划分出M个区域。

3.CART分类

算法大致与ID3及C4.5相同，但是不仅要选取特征，还要选取特征最优二值划分点，两者准则为基尼指数极小化。

基尼指数：假设样本有 $K$ 类，样本属于第 $k$ 类的概率为 $p_k$

G i n (p) = \sum k = 1 K p k (1 - p k) = 1 - \sum k = 1 K p 2 k

$Gin(p)=\sum_{k=1}^K p_k(1-p_k)=1-\sum_{k=1}^K p_k^2$

基尼指数表示数据集D的不确定度，基尼指数越大，不确定度越大，与熵类似。

4.CART剪枝

CART剪枝是一种全局搜索最优的方式，从生成的决策树 $T_0$ 底端开始不断向上剪枝，直到剩下单结点树，形成一个子树序列 $\{T_0,T_1,\cdots,T_n\}$ ,然后通过交叉验证的方法在独立的验证数据集上对子树集进行测试，得出最优的子树。

如何得到子树序列

Breiman等人证明，可以用递归的方法对树进行剪枝，将 $\alpha$ 从小增大， $\alpha_0<\alpha_1<\cdots<\alpha_n<+\infty$ ,产生一系列的区间 $[\alpha_i,\alpha_{i+1}),i=0,1,\cdots,n$ ,剪枝得到的子树序列对应于区间 $[\alpha_i,\alpha_{i+1})$ 上的最优子树序列 $\{T_0,T_1,\cdots,T_n\}$