鸢尾花——决策树

最新推荐文章于 2025-06-01 14:11:00 发布

原创

最新推荐文章于 2025-06-01 14:11:00 发布 · 2.8k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

现有鸢尾花数据集iris.data。Iris数据集是常用的分类实验数据集，由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。数据集包含150个数据集，分为3类，每类50个数据，每个数据包含4个属性。可通过花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)、花瓣宽度(petal width),4个属性预测鸢尾花卉属于（Setosa，Versicolour，Virginica）三个种类中的哪一类。

现需要进行如下实验：

1、使用pandas库读取数据集，得到相应矩阵，并进项相应的数据预处理：包括数据标准化与鸢尾花类别编码等。

2、采用决策树分类模型(DecisionTreeClassifier)训练鸢尾花数据集，测试集取30%，训练集取70%。

3、特征选择标准criterion请分别选择"gini"与“entropy”，在控制台分别打印出其测试集正确率。请问在iris.data数据及上，选择不同的特征选择标准，结果有无区别？

4、为了提升模型的泛化能力，请分别使用十折交叉验证，确定第三小问中两个决策树模型的参数max_depth（树的最大深度，该特征为最有效的预剪枝参数）与max_features（划分时考虑的最大特征数）的最优取值。max_depth取值范围为1-5，max_features的取值范围为1-4。请在控制台输出这两个参数的最优取值。

5、分别使用最优取值替换模型的参数设置。

6、为了更好的反应模型的预测能力，请在所有数据上使用sklearn的cross_val_score进行十折交叉验证，输出两个模型采用最优参数设置后的平均预测准确率，并在控制

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。