Decision Tree:CART、剪枝

本文介绍了CART算法在决策树中的应用,强调了其二分、单变量分割和剪枝策略的特点。CART通过Gini指数决定属性划分,适用于分类和回归任务。在构建Classification Tree时,CART使用Gini信息增益选择最优划分。对于Regression Tree,采用最小剩余方差。停止生长的条件包括样本都属于同一类别、达到最大深度、样本数量限制等。剪枝是避免过拟合的关键,包括预剪枝和后剪枝,如Reduced-Error Pruning、Pessimistic Error Pruning和Cost-Complexity Pruning等。CART算法优点包括无分布假设、处理混合属性、对异常值不敏感,但非基于概率模型,难以衡量准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Decision Tree:CART、剪枝

 

决策树的重要性和入门可以参考前面两篇文章,尤其是入门的ID3算法:

http://isilic.iteye.com/blog/1841339http://isilic.iteye.com/blog/1844097

Classification And Regression Tree(CART)也是决策树的一种,并且是非常重要的决策树。除去上文提到的C4.5外,CART算法也在Top Ten Machine Learning Algorithm中,可见决策树的重要性和CART算法的重要性。

 

CART的特性主要有下面三个,其实这些特性都不完全算是CART的特性,只是在CART算法中使用,并且作为算法的重要基础:

1:二分(Binary Split):在每次判断过程中,都是对观察变量进行二分。

2:单变量分割(Split Based on One Variable):每次最优划分都是针对单个变量。

3:剪枝策略:CART算法的关键点,也是整个Tree-Based算法的关键步骤。

 

CART能处理Classification Tree和Regression Tree,在建树过程中有不一样的地方,我们分别来看下。

我们先看Classification Tree的建树过程:

ID3,C4.5算法是利用熵理论和信息增益(率)来决定属性分割策略;CART则是利用Gini Index(GINI 指数)来定义衡量划分的好坏。和熵类似,数据内包含的类别越杂乱,GINI指数就越大,有没有感觉跟熵的概念类似。下面我们来学习下Gini Index的内容:

其中Pj是类jT中的相对频率,当类jT中是倾斜时,gini(T)才会最小。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值