Decision Tree:CART、剪枝
决策树的重要性和入门可以参考前面两篇文章,尤其是入门的ID3算法:
http://isilic.iteye.com/blog/1841339、http://isilic.iteye.com/blog/1844097
Classification And Regression Tree(CART)也是决策树的一种,并且是非常重要的决策树。除去上文提到的C4.5外,CART算法也在Top Ten Machine Learning Algorithm中,可见决策树的重要性和CART算法的重要性。
CART的特性主要有下面三个,其实这些特性都不完全算是CART的特性,只是在CART算法中使用,并且作为算法的重要基础:
1:二分(Binary Split):在每次判断过程中,都是对观察变量进行二分。
2:单变量分割(Split Based on One Variable):每次最优划分都是针对单个变量。
3:剪枝策略:CART算法的关键点,也是整个Tree-Based算法的关键步骤。
CART能处理Classification Tree和Regression Tree,在建树过程中有不一样的地方,我们分别来看下。
我们先看Classification Tree的建树过程:
ID3,C4.5算法是利用熵理论和信息增益(率)来决定属性分割策略;CART则是利用Gini Index(GINI 指数)来定义衡量划分的好坏。和熵类似,数据内包含的类别越杂乱,GINI指数就越大,有没有感觉跟熵的概念类似。下面我们来学习下Gini Index的内容:
其中Pj是类j在T中的相对频率,当类j在T中是倾斜时,gini(T)才会最小。