机器学习-使用决策树DecisionTreeClassifier()对鸢尾花数据集进行分类

Leon在努力啊

已于 2023-03-08 18:01:28 修改

阅读量2.5k

点赞数 3

文章标签：决策树分类机器学习

于 2022-05-18 20:50:00 首次发布

本文链接：https://blog.youkuaiyun.com/hello15617900040/article/details/124850712

版权

本文介绍了决策树回归的基础概念，如信息增益、平均误差和Gini系数，并通过Python实现鸢尾花数据集分类。重点讲解了如何使用基尼系数划分节点，以及如何通过网格搜索优化max_depth、min_samples_split和min_samples_leaf参数。最终，展示了混淆矩阵和可视化结果，以评估模型性能并达到预期目标。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1．1决策树回归的工作基础

主要任务是首先介绍什么时决策树和信息增益，平均误差，Gini系数等一些基础概念，之后手动推演和上机实践实现决策树的分类与回归
代码：机器学习决策树算法对鸢尾花iris测试集百分百识别

1．2决策树分类的实验条件

使用了python作为主要工具。

1．3 设计思想

使用基尼系数作为划分标准，基尼系数越小，则不纯度越低，区分的越彻底。
假设一个数据集中有K个类别，第K个类别的概率为pk,则基尼系数表达式为：
在这里插入图片描述

对于个给定的样本D，假设有K个类别，第k个类别的数量为CkCk,则样本D的基尼系数表达式为:
在这里插入图片描述

1．4运行结果及分析

首先，通过键盘交互式按键“T”，开始训练；训练集和测试集按4：1进行划分，前四份用于训练，后一份用于测试，并用混淆矩阵来评判分类后的结果。
通过掉用封装好的决策树API接口，默认的参数虽然是最优的担并不适用于任何数据集，不用的需求也相应着模型的参数不同。通过网格搜索交叉验证的方式来寻找模型的最优参数，以下为对max_depth；min_samples_split ；min_samples_leaf 这三个参数进行调优。
注：①max_depth（树的最大深度）：默认为None，此时决策树在建立子树的时候不会限制子树的深度。也可以设置具体的整数，一般来说，数据少或者特征少的时候可以不管这个值。如果模型样本量多，特征也多的情况下，推荐限制这个最大深度，具体的取值取决于数据的分布
在这里插入图片描述