CART算法(Classification And Regression Tree)
http://blog.youkuaiyun.com/u014568921/article/details/45082197
https://wenku.baidu.com/view/286c19dae009581b6bd9eb59.html
http://www.dataguru.cn/article-4720-1.html
一、介绍
采用一种二分递归分割的技术,分割方法采用基于最小距离的基尼指数估计函数,将当前的样本集分为两个子样本集,使得生成的每个非叶子节点都有两个分支。因此,CART算法生成的决策树是结构简介的二叉树。
1.分类树
如果目标变量是离散变量,则是Classfication Tree;
分类树是使用树结构算法将数据分成离散类的方法。
2.回归树
如果目标是连续变量,则是Regression Tree;
CART树是二叉树,不像多叉树那样形成过多的数据碎片。
二、分类树两个关键点
1.将训练样本进行递归地划分自变量空间进行建树
2.用验证数据进行剪枝
A)对于离散变量X(x1…xn)
分别取X变量各值的不同组合,将其分到树的左枝或右枝,并对不同组合而产生的树,进行评判,找出最佳组合。
如果只有两个取值,直接根据这两个值就可以划分树。
取值多于两个的情况就复杂一些,如变量年纪,其值有“少年”、“中年”、“老年”,则分别生
CART算法详解:分类与回归树

CART算法是一种二分递归分割技术,用于创建简洁的二叉决策树。它适用于分类和回归任务,通过最小化基尼指数或平方误差来选择最佳分割点。在构建树的过程中,CART考虑了离散和连续变量,遵循特定的变量选择和切分原则。剪枝是防止过拟合的重要步骤,常见的剪枝方法包括错误率降低剪枝、悲观剪枝和代价复杂性剪枝。
最低0.47元/天 解锁文章
4502

被折叠的 条评论
为什么被折叠?



