预测是否已婚(分类):
预测年龄(回归):
2,预剪枝与后剪枝
PrePrune:预剪枝,及早的停止树增长,在每个父节点分支的时候计算是否达到了限制值
a. 达到最大数深度(Maximum Tree Depth);
b. 最优划分(Split)标增益小于某一个阈值也可停止树的生长;
c. 到达此结点的实例具有相同的特征向量,而不必一定属于同一类,也可停止生长。
d. 计算每次生长对系统性能的增益,如果这个增益值小于某个阈值则不进行生长。如果在最好情况下的生长增益都小于阈值,即使有些叶子结点的实例不属于同一类,也停止树的增长。
PostPrune:后剪枝,基于完全生长(过拟合)的树上进行剪枝,砍掉一些对衡量函数影响不大的枝叶
a.错误率降低剪枝,剪枝后错误率降低
b.悲观剪枝,
c.代价复杂度剪枝
3,cart结束分裂条件
a. 达到最大数深度(Maximum Tree Depth);
b. 最优划分(Split)标增益小于某一个阈值也可停止树的生长;
c. 到达此结点的实例具有相同的特征向量,而不必一定属于同一类,也可停止生长。
d. 计算每次生长对系统性能的增益,如果这个增益值小于某个阈值则不进行生长。如果在最好情况下的生长增益都小于阈值,即使有些叶子结点的实例不属于同一类,也停止树的增长。
4, 决策树的特性?
决策树基于树结构进行决策,与人类在面临问题的时候处理机制十分类似。其特点在于需要选择一个属性进行分支,在分支的过程中选择信息增益最大的属性,在划分中我们希望决策树的分支节点所包含的样本属于同一类别,即节点的纯度越来越高。决策树计算量简单,可解释性强,比较适合处理有缺失属性值的样本,能够处理不相关的特征,但是容易过拟合,需要使用剪枝或者随机森林。信息增益是熵减去条件熵,代表信息不确定性较少的程度,信息增益越大,说明不确定性降低的越大,因此说明该特征对分类来说很重要。由于信息增益准则会对数目较多的属性有所偏好,因此一般用信息增益率(c4.5) 其中分母可以看作为属性自身的熵。取值可能性越多,属性的熵越大。Cart决策树使用基尼指数来选择划分属性,直观的来说,Gini(D)反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率,因此基尼指数越小数据集D的纯度越高,一般为了防止过拟合要进行剪枝,有预剪枝和后剪枝,一般用crossvalidation集进行剪枝。连续值和缺失值的处理,对于连续属性a,将a在D上出现的不同的取值进行排序,基于划分点t将D分为两个子集。一般对每一个连续的两个取值的中点作为划分点,然后根据信息增益选择最大的。与离散属性不同,若当前节点划分属性为连续属性,该属性还可以作为其后代的划分属性。