上回书说到,决策树是一种非参数的有监督学习方法,它的作用是将表中数据所隐含的规律总结出来,并对新的输入数据进行基于已有规则的判断。决策树的两个核心问题是如何选择最佳的分枝特征以及如何防止过拟合。今天,我们将从应用sklearn来创建决策树这一视角出发,来简述一下回归树的建模流程以及重要参数。同样地,这次分享不涉及有关参数的数学原理,想看原理的朋友们可以有个心理预期啦。
---------------------------------------------------------------------------------------------------------------------------------
1.sklearn的建模流程
几乎所有的sklearn上的模型都可以用下面的三步来建模;
其中比较重要的接口是:
fit —训练模型的接口,输入xtrain ytrain
score — 用与评测给定的测试数据与标签间的准确度,分数越高模型越好,输入xtest ytest
get_params — 获取这个模型评估对象的参数