前言:
决策树可以分成ID3、C4.5和CART。上一篇博客,已经讲了ID3、C4.5,感兴趣的可以参考下: https://blog.youkuaiyun.com/qs17809259715/article/details/97231726
CART与ID3和C4.5相同都由特征选择,树的生成,剪枝组成。但ID3和C4.5用于分类,CART可用于分类与回归。
ID3和C4.5生成的决策树可以是多叉的,每个节点下的叉树由该节点特征的取值种类而定,比如特征年龄分为(青年,中年,老年),那么改节点下可分为3叉。而CART为假设决策树为二叉树,内部结点特征取值为”是”和”否”。
一、CART分类树回归树简介
- CART分类回归树是一种典型的二叉决策树,可以做分类或者回归。
- 如果待预测结果是离散型数据,则CART生成分类决策树;
- 如果待预测结果是连续型数据,则CART生成回归决策树。
- 数据对象的属性特征为离散型或连续型,并不是区别分类树与回归树的标准,例如表1中,数据对象xi的属性A、B为离散型或连续型,并是不区别分类树与回归树的标准。
作为分类决策树时,待预测样本落至某一叶子节点,则输出该叶子节点中所有样本所属类别最多的那一类(即叶子节点中的样本可能不是属于同一个类别,则多数为主);作为回归决策树时,待预测样本落至某一叶子节点,则输出该叶子节点中所有样本的均值。
二、CART分类树分裂属性的选择
CART的前提条件,决策树必须为二叉树