Decision Tree:CART、剪枝
决策树的重要性和入门可以参考前面两篇文章,尤其是入门的ID3算法:
http://isilic.iteye.com/blog/1841339、http://isilic.iteye.com/blog/1844097
Classification And Regression Tree(CART)也是决策树的一种,并且是非常重要的决策树。除去上文提到的C4.5外,CART算法也在Top Ten Machine Learning Algorithm中,可见决策树的重要性和CART算法的重要性。
CART的特性主要有下面三个,其实这些特性都不完全算是CART的特性,只是在CART算法中使用,并且作为算法的重要基础:
1:二分(Binary Split):在每次判断过程中,都是对观察变量进行二分。
2:单变量分割(Split Based on One Variable):每次最优划分都是针对单个变量。
3:剪枝策略:CART算法的关键点,也是整个Tree-Based算法的关键步骤。
CART能处理Classification Tree和Regression Tree,在建树过程中有不一样的地方,我们分别来看下。
我们先看Classification Tree的建树过程:
ID3,C4.5算法是利用熵理论和信息增益(率)来决定属性分割策略;CART则是利用Gini Index(GINI 指数)来定义衡量划分的好坏。和熵类似,数据内包含的类别越杂乱,GINI指数就越大,有没有感觉跟熵的概念类似。下面我们来学习下Gini Index的内容:

其中Pj是类j在T中的相对频率,当类j在T中是倾斜时,gini(T)

本文介绍了CART算法在决策树中的应用,强调了其二分、单变量分割和剪枝策略的特点。CART通过Gini指数决定属性划分,适用于分类和回归任务。在构建Classification Tree时,CART使用Gini信息增益选择最优划分。对于Regression Tree,采用最小剩余方差。停止生长的条件包括样本都属于同一类别、达到最大深度、样本数量限制等。剪枝是避免过拟合的关键,包括预剪枝和后剪枝,如Reduced-Error Pruning、Pessimistic Error Pruning和Cost-Complexity Pruning等。CART算法优点包括无分布假设、处理混合属性、对异常值不敏感,但非基于概率模型,难以衡量准确性。
最低0.47元/天 解锁文章
1221

被折叠的 条评论
为什么被折叠?



