前两篇决策树的blog介绍了有关决策树的理论知识,这篇文章我们编码实践一下,采用了网上较为简单的一个有关天气影响运动的数据集,决策树建模部分是利用sklearn.tree.DecisionTreeClassifier()训练构建决策树模型,利用pydotplus+graphviz进行模型可视化展示。
数据集

由于数据量较少,就不再划分训练集测试集,将以上数据全部用于训练。
编码
import pandas as pd
from pandas import Series
import pydotplus
from sklearn import tree
from sklearn.externals.six import StringIO
# load data
datadic = '决策树.xlsx'
mydata = pd.read_excel(datadic)
# prepare
whetherlist = []
windlist =[]
resultlist = []
for i in range(len(mydata)):
if mydata.ix[i][u'天气'] == u'晴':
whetherlist.append(0)
elif mydata.ix[i][u'天气'] == u'多云':
whetherlist.append(1)
elif mydata.ix[i][u'天气'] == u'有雨':
whetherlist.append(2)
if mydata.ix[i][u'风况'] == u'有':
windlist.append(1)
elif mydata.ix[i][u'风况'

本文介绍了使用sklearn库构建决策树模型的过程,以天气影响运动的数据集为例,探讨了criterion(信息增益与基尼指数)、min_samples_split等关键参数的影响,并通过可视化分析展示了不同参数设置下的决策树结构差异。
最低0.47元/天 解锁文章
2455

被折叠的 条评论
为什么被折叠?



