背景
CART(Classification And Regression Tree)可以做分类树也可以做回归树。注意特征可以是不同的类别,标签也可以是不同的类别。
回归树
求最优的数据切分点,首先要对单列特征排一个序,然后依据排序好的特征和标签选择最优的切分点。如果为多特征时,会对特征做一个选择,依据的标准是最小化的下列式子的值,与特征没有关系,仅仅与lable是有关系的。CART是分类树时用GINI(基尼指数)值作为节点分裂依据。jjj表示的应该是第jjj个特征
minj,s[minc1∑xi∈R1(j,s)(yi−c1)2+minc2∑xi∈R2(j,s)(yi−c2)2]
\min _{j, s}\left[\min _{c_{1}} \sum_{x_{i} \in R_{1}(j, s)}\left(y_{i}-c_{1}\right)^{2}+\min _{c_{2} } \sum_{x_{i} \in R_{2}(j, s)}\left(y_{i}-c_{2}\right)^{2}\right]
j,smin⎣⎡c1minxi∈R1(j,s)∑(yi−c1)2+c2minxi∈R2(j,s)∑(yi−c2)2⎦⎤
jjj是与xxx有关系的,表示为x(j)x^{(j)}x(j), sss是切分点。
最后的树为:
f(x)=∑m=1Mc^mI(x∈R)
f(x)=\sum_{m=1}^{M} \hat{c}_{m} I(x \in R)
f(x)=m=1∑Mc^mI(x∈R)
MMM表示划分的区域数,III表示如果在某一个区域则为1,不在则为0。 上述为回归树,分类树需要考虑基尼指数等。
- 上述考虑了特征是连续的,如果特征是离散的的那么需要考虑什么问题呢?
答:可以按照离散的特征进行分区域计算。
CART分类树
分类树需要考虑基尼指数,通过基尼指数,我们可以选择最优特征和最优分割点。
- 上述考虑了特征是离散的,如果特征是连续的那么需要考虑什么问题呢?
答:使用CART分类树,哪个类别就当做是哪一类。
参考资料
https://www.cnblogs.com/limingqi/p/12421960.html
https://www.cnblogs.com/keye/p/10564914.html
https://www.cnblogs.com/keye/p/10564914.html
https://blog.youkuaiyun.com/qq_40006058/article/details/80530358