CART算法

最新推荐文章于 2022-11-19 21:29:52 发布

原创最新推荐文章于 2022-11-19 21:29:52 发布 · 630 阅读

CC 4.0 BY-SA版权

文章标签：

15 篇文章

订阅专栏

本文深入介绍了CART算法，包括最小二乘回归树的构建过程，通过最小化平方误差来划分区域和决定输出值。接着详细阐述了分类树的生成，基于基尼指数选择最优特征进行分割，并设定停止条件来构建二叉决策树。CART算法在决策树构建中的应用被详细解析。

算法

输入：训练师数据集 $D={(x_1，y_1)，(x_2，y_2)，\cdots，(x_n，y_n)}$ ， y为连续变量

输出：回归树f(x)

在训练数据集所在输入空间中，递归的将每个区域划分为两个子区域并决定每个子区域上的输出值，构建二叉决策树

选在最优切分变量(特征）j与切分点s，求解
$min j, s [min c 1 \sum x i \in R 1 (j, s) (y i - c 1) 2 + min c 2 \sum x i \in R 2 (j, s) (y i - c 2) 2]$ $\min_{j,s} [\min_{c_1} \sum_{x_i \in R_1(j,s)}(y_i-c_1)^2 +\min_{c_2} \sum_{x_i \in R_2(j,s)}(y_i-c_2)^2]$

遍历变量j，对固定的切分变量j扫描且分点s，选择使上式达到最小值的（j,s）

用选定的(j,s)划分区域并决定相应的输出值：

$R1(j,s)={x|x(j)≤s}R1(j,s)={x|x(j)≥s}cm^=1Nm∑xi∈Rm(j,s)yi$ $R_1(j,s)=\{x|x^{(j)} \leq s \} \\ R_1(j,s)=\{x|x^{(j)} \geq s \} \\ \hat{c_m} = \frac{1}{N_m} \sum_{x_i \in R_m(j,s)} y_i$
继续对两个子区域调用(1),(2),直到满足停止条件。
将输入空间划分为M个区域 $R_1,R_2,\cdots ,R_m$ ,生成决策树：

$f (x) = \sum m = 1 M c m^I (x \in R m)$ $f(x)=\sum_{m=1}^M \hat{c_m} I( x \in R_m)$

二、分类树的生成

假设有K个类，样本点属于K类的概率为 $p_k$ ，则概率分布的基尼指数定义为

G i n i (p) = \sum i = 1 K p k (1 - p k) = 1 - \sum i = 1 K p 2 k

$Gini(p)= \sum_{i=1}^K p_k(1- p_k) = 1- \sum_{i=1}^K p_k^2$
对于给定的样本集合D，其基尼指数为

G i n i (D) = 1 - \sum i = 1 K (| D k | | D |) 2

$Gini(D) = 1 - \sum_{i=1}^K (\frac{|D_k|}{|D|})^2$
如果样本集合D根据特征A是否取某一可能的值a被分割成

D1，D2 $D_1，D_2$ 两个部分，则在特征A的条件下集合D的基尼指数为：

G i n i (D, A) = | D 1 | | D 2 | G i n i (D 1) + | D 2 | | d | G i n i (D 2)

$Gini(D,A)= \frac {|D_1|}{|D_2|}Gini(D_1)+ \frac{|D_2|}{|d|}Gini(D_2)$
算法：

输入：训练数据集D，停止计算条件

输出：CART决策树

根据训练数据集，从根节点开始，递归的对每个节点进行一下操作，构建二叉决策树

设结点的训练数据集为D，计算现有特征对该数据集的基尼指数，此时，对每个特征A，对其可能取得每个值a，根据样本点对A=a的测试为“是”或“否”将D分割成D1，D2两个部分，计算A=a时的基尼指数。
在所有的特征A以及他们所有可能的切分点a中，选择基尼指数最小的特征以及其对应的切分点。依最优特征与最优切分点，从现节点生成两个子节点，将训练数据集分配到连个子节点中去
对连个子节点递归的调用（1）、（2），直到满足停止条件。
生成CART树

算法停止条件是结点中的样本个数小于预定阈值，或者样本的基尼指数小于预定阈值，或者没有更多特征。