sklearn的基本建模流程
#导入需要的模块
from sklearn import tree
#实例化
clf = tree.DecisionTreeClassifier()
#用训练集数据训练模型
clf = clf.fit(x_train,y_train)
#导入测试集,从接口中调用需要的信息
result = clf.score(x_test,y_test)
sklearn中决策树的类都在tree这个模块下,这个模块共包含5个类
- tree.DecisionTreeClassifier
- tree.DecisionTreeRegressor
- tree.export_graphviz
- tree.ExtraTreeClassifier
- tree.ExtraTreeRegressor
一.DecisionTreeClassifier
1.重要参数
criterion:用来决定不纯度的计算方法的,sklearn提供了两种选择
- 输入“entropy”,使用信息熵
- 输入“gini”,使用基尼系数
- 比起基尼系数,信息熵对不纯度更加敏感,对不纯度的惩罚更强
- 但在实际使用中,信息熵和基尼系数的效果基本相同
random_state & splitter
- random_state:用来设置分枝中的随机模式的参数,默认none,在高维