CART又叫分类与回归树,既可以用来分类,也可以用来回归。CART假设决策树是二叉树,内部节点特征取值是“是”和“否”,左分支取值是“是”的分支,右分支取值是“否的分支,这样的决策树等价于递归的二分每个特征,将特征空间划分为有线个单元,并在这些单元上确定预测的概率分布。对回归树用平方误差最小化的准则,对分类树用基尼指数最小化的准则,进行特征选择,生成二叉树。
1、回归树的生成
假设X和Y分别为输入变量和输出变量,并且Y是连续变量,给定训练数据集:
D={
(x1,y1),(x2,y2),..,(xn,yn)}
一个回归树对应特征空间的一个划分以及在划分单元上的输出值。假设将特征空间划分为M个单元,并且每个单元上有一个固定的输出值cm,于是回归树的模型可以表示为:
f(x)=∑m=1McmI(x∈Rm)
当输入空间的划分确定时,可以用平方误差∑xi∈Rm(yi−f(xi))2来表示回归树对于训练数据的预测误差,可以得出,单元Rm上的cm的最优值c^m是Rm上所有输入实例x