CART 分类和回归树

CART算法既能用于构建分类树也能构建回归树。在回归树中,通过最小化平方误差来寻找最优切分点;在分类树中,基尼指数是选择特征和分割点的主要依据。对于离散特征,直接按区域计算,而对于连续特征,需要排序后选取最佳切分点。最后,通过组合多个区域的平均值来预测结果。CART在处理连续和离散特征时有不同的策略,确保了模型的适用性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

背景

CART(Classification And Regression Tree)可以做分类树也可以做回归树。注意特征可以是不同的类别,标签也可以是不同的类别。

回归树

求最优的数据切分点,首先要对单列特征排一个序,然后依据排序好的特征和标签选择最优的切分点。如果为多特征时,会对特征做一个选择,依据的标准是最小化的下列式子的值,与特征没有关系,仅仅与lable是有关系的。CART是分类树时用GINI(基尼指数)值作为节点分裂依据。jjj表示的应该是第jjj个特征
min⁡j,s[min⁡c1∑xi∈R1(j,s)(yi−c1)2+min⁡c2∑xi∈R2(j,s)(yi−c2)2] \min _{j, s}\left[\min _{c_{1}} \sum_{x_{i} \in R_{1}(j, s)}\left(y_{i}-c_{1}\right)^{2}+\min _{c_{2} } \sum_{x_{i} \in R_{2}(j, s)}\left(y_{i}-c_{2}\right)^{2}\right] j,sminc1minxiR1(j,s)(yic1)2+c2minxiR2(j,s)(yic2)2
jjj是与xxx有关系的,表示为x(j)x^{(j)}x(j), sss是切分点。
最后的树为:
f(x)=∑m=1Mc^mI(x∈R) f(x)=\sum_{m=1}^{M} \hat{c}_{m} I(x \in R) f(x)=m=1Mc^mI(xR)
MMM表示划分的区域数,III表示如果在某一个区域则为1,不在则为0。 上述为回归树,分类树需要考虑基尼指数等。

  • 上述考虑了特征是连续的,如果特征是离散的的那么需要考虑什么问题呢?
    答:可以按照离散的特征进行分区域计算。
CART分类树

分类树需要考虑基尼指数,通过基尼指数,我们可以选择最优特征和最优分割点。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 上述考虑了特征是离散的,如果特征是连续的那么需要考虑什么问题呢?
    答:使用CART分类树,哪个类别就当做是哪一类。
参考资料

https://www.cnblogs.com/limingqi/p/12421960.html
https://www.cnblogs.com/keye/p/10564914.html
https://www.cnblogs.com/keye/p/10564914.html
https://blog.youkuaiyun.com/qq_40006058/article/details/80530358

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值