CART又叫分类与回归树,既可以用来分类,也可以用来回归。CART假设决策树是二叉树,内部节点特征取值是“是”和“否”,左分支取值是“是”的分支,右分支取值是“否的分支,这样的决策树等价于递归的二分每个特征,将特征空间划分为有线个单元,并在这些单元上确定预测的概率分布。对回归树用平方误差最小化的准则,对分类树用基尼指数最小化的准则,进行特征选择,生成二叉树。
1、回归树的生成
假设X和Y分别为输入变量和输出变量,并且Y是连续变量,给定训练数据集:
D={
(x1,y1),(x2,y2),..,(xn,yn)}
一个回归树对应特征空间的一个划分以及在划分单元上的输出值。假设将特征空间划分为M个单元,并且每个单元上有一个固定的输出值 cm ,于是回归树的模型可以表示为:
f(x)=∑m=1McmI(x∈Rm)
当输入空间的划分确定时,可以用平方误差 ∑xi∈Rm(yi−f(xi))2 来表示回归树对于训练数据的预测误差,可以得出,单元 Rm 上的 cm 的最优值 c^m 是 Rm 上所有输入实例 xi 对应的输出