决策树算法包括ID3,C4.5,CART。这里的CART:classification and regression tree.CART的本质是对特征空间进行二元分割,即CART生成的树是一颗二叉树,并能对标称属性与数值型属性进行分割。树模型有两个核心问题,一是如何选择当前节点中的特征来划分数据,二是树的构建何时停止。
1. 节点分支
对于标称属性而言,不论该属性有几种取值,都只能划分成二叉树。比如age = {young, medium, old},划分成young = {young}, no young = {medium, old} 或者 medium = {medium}, no medium = {young, old} 或者 old = {old}, no old = {young, medium}。
对于数值型属性而言,可以设定一个阈值T,大于

本文介绍了CART算法,一种用于分类和回归的决策树方法。CART通过二元分割对特征空间进行划分,对标称和数值型属性都能处理。在节点划分中,标称属性生成二叉树,数值型属性则通过阈值划分。选择特征时,CART基于基尼指数。CART分类与ID3、C4.5类似,而回归时采用叶子节点的均值或加权平均。更优的做法是在每个叶子节点建立线性模型以提高回归精度。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



