1.决策树原理
决策树算法重点就在于“决策”和“树”这两个概念,顾名思义决策树是基于树结构来进行决策的,这也恰恰是人们在遇到问题时进行问题梳理的一种很自然的处理机制。
决策树的目标是建立分类和回归模型,核心目标是决策树的生长和决策树的修剪。
对于决策树的生长算法有:ID3,C5.0,CART,CHAID,QUEST等;
对于决策树的修剪方法有:预剪枝,后剪枝。
2.决策树优缺点
优点:
- 不需要预处理,不需要提前归一化,处理缺失值;
- 既可以处理离散值也可以处理连续值。很多算法只是专注于离散值或者连续值;
- 简单直观,生成的决策树很直观;
- 使用决策树预测的代价是O(log2m)O(log2m)。 m为样本数;
- 可以处理多维度输出的分类问题;
- 相比于神经网络之类的黑盒分类模型,决策树在逻辑上可以得到很好的解释;
- 可以交叉验证的剪枝来选择模型,从而提高泛化能力;
- 对于异常点的容错能力好,健壮性高。
缺点: - 决策树算法非常容易过拟合,导致泛化能力不强。可以通过设置节点最少样本数量和限制决策树深度来改进;
- 决策树会因为样本发生一点点的改动,就会导致树结构的剧烈改变。这个可以通过集成学习之类的方法解决;
- 寻找最优的决策树是一个NP难的问题,我们一般是通过启发式方法,容易陷入局部最优。可以通过集成学习之类的方法来改善;
- 有些比较复杂的关系,决策树很难学习,比如异或。这个就没有办法了,一般这种关系可以换神经网络分类方法来解决;
- 如果某些特征的样本比例过大,生成决策树容易偏向于这些特征。这个可以通过调节样本权重来改善。
3.CART算法
纵使决策树的生成算法有很多,但是scikit-learn决策树算法类库内部实现是使用了调优过的CART树算法,既可以做分类,又可以做回归。分类回归树(Classification And Regression Tree, CART)是由美国斯坦福大学和加州大学伯克利分校的布雷曼(Breiman) 等人于1984年提出的,同年他们出版了相关专著Classification and Regression Trees。
CART算法也有树的生成和剪枝两部分,对于树的生成采用的标准主要是:基尼系数(分类),方差(回归);对于树的剪枝采用的标准主要是是:MCCP算法(最小代价复杂性修剪法)。对于这两部分的理论介绍这里不再给出,随便找一本介绍CART树算法的书都有相应的介绍,例如:链接1,链接2……
4.CART算法实现
scikit-learn决策树算法类库中,分类决策树的类对应的是DecisionTreeClassifier,而回归决策树的类对应的是DecisionTreeRegressor。
对于这两者来说,参数定义几乎完全相同,但是意义不全相同。下面就对DecisionTreeClassifier和DecisionTreeRegressor的重要参数做一个总结,重点比较两者参数使用的不同点和调参的注意点。
DecisionTreeClassifier
DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=None,
min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0,
max_features=None, random_state=None, max_leaf_nodes=None,
min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None,
presort=False)
DecisionTreeRegressor
DecisionTreeRegressor(criterion=’mse’, splitter=’best’, max_depth=None,
min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0,
max_features=None, random_state=None, max_leaf_nodes=None,
min_impurity_decrease=0.0, min_impurity_split