Decision Tree：CART、剪枝

最新推荐文章于 2024-12-21 18:55:01 发布

原创

最新推荐文章于 2024-12-21 18:55:01 发布 · 515 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#数据结构与算法

本文介绍了CART算法在决策树中的应用，强调了其二分、单变量分割和剪枝策略的特点。CART通过Gini指数决定属性划分，适用于分类和回归任务。在构建Classification Tree时，CART使用Gini信息增益选择最优划分。对于Regression Tree，采用最小剩余方差。停止生长的条件包括样本都属于同一类别、达到最大深度、样本数量限制等。剪枝是避免过拟合的关键，包括预剪枝和后剪枝，如Reduced-Error Pruning、Pessimistic Error Pruning和Cost-Complexity Pruning等。CART算法优点包括无分布假设、处理混合属性、对异常值不敏感，但非基于概率模型，难以衡量准确性。

Decision Tree：CART、剪枝

决策树的重要性和入门可以参考前面两篇文章，尤其是入门的ID3算法：

http://isilic.iteye.com/blog/1841339、http://isilic.iteye.com/blog/1844097

Classification And Regression Tree(CART)也是决策树的一种，并且是非常重要的决策树。除去上文提到的C4.5外，CART算法也在Top Ten Machine Learning Algorithm中，可见决策树的重要性和CART算法的重要性。

CART的特性主要有下面三个，其实这些特性都不完全算是CART的特性，只是在CART算法中使用，并且作为算法的重要基础：

1：二分(Binary Split)：在每次判断过程中，都是对观察变量进行二分。

2：单变量分割(Split Based on One Variable)：每次最优划分都是针对单个变量。

3：剪枝策略：CART算法的关键点，也是整个Tree-Based算法的关键步骤。

CART能处理Classification Tree和Regression Tree，在建树过程中有不一样的地方，我们分别来看下。

我们先看Classification Tree的建树过程：

ID3,C4.5算法是利用熵理论和信息增益(率)来决定属性分割策略；CART则是利用Gini Index(GINI 指数)来定义衡量划分的好坏。和熵类似，数据内包含的类别越杂乱，GINI指数就越大，有没有感觉跟熵的概念类似。下面我们来学习下Gini Index的内容：

其中Pj是类j在T中的相对频率，当类j在T中是倾斜时，gini(T)

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。