03_使用决策树预测隐形眼镜类型

JTZ001

已于 2022-03-28 09:04:31 修改

阅读量4k

点赞数

CC 4.0 BY-SA版权

分类专栏：人工智能文章标签：机器学习人工智能聚类

于 2022-03-28 09:04:07 首次发布

本文链接：https://blog.youkuaiyun.com/jintianzheng/article/details/123740068

本博客介绍如何使用Python编程，依据隐形眼镜数据集，通过决策树算法选择最优特征构建并可视化决策树，最终实现隐形眼镜类型的分类预测。涉及内容包括决策树的原理、特征选择、过拟合处理、决策树可视化以及分类预测流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

使用决策树预测隐形眼镜类型

1、实验描述

使用Python编程，输入为隐形眼镜数据集，计算所有可能的特征的信息增益，选择最优的特征值划分数据集，进而递归地构建决策树。其中为了更加直观地呈现决策树，使用Matplotlib编程将决策树可视化。最后，根据训练好的决策树执行分类，预测患者需要佩戴的隐性眼镜类型。
实验时长： 60分钟
主要步骤：
- 使用Python选择最优特征递归构建决策树
- 决策树的可视化
- 使用决策树执行分类预测

2、实验环境

Anaconda 4.3.30
Python 3.6.6
Numpy 1.13.1
Matplotlib 2.2.2
scikit-learn 0.18.2
graphviz 2.30.1

3、相关技能

Python编程
Matplotlib编程
决策树构建
决策树可视化

4、相关知识点

决策树的原理
决策树（decision
tree）是一种基本的分类与回归方法，是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。决策树可以看作一个if-then规则的集合：由决策树的根结点到叶结点的每一条路径构建一条规则；路径上内部结点的特征对应着规则的条件，而叶结点的类对应着规则的结论。
使用决策树预测需要以下过程：收集数据、准备整理数据、分析数据、训练算法构造决策树、测试算法、使用算法。
决策树的构建
特征选择：特征选择在于选取对训练数据具有分类能力的特征，决定用哪个特征来划分特征空间，可以提高决策树学习的效率。通常特征选择的标准是信息增益或信息增益比。信息增益指的是划分数据集之后信息发生的变化，通过经验熵和条件熵，计算每个特征值划分数据集获得的信息增益，获得信息增益最高的特征就是最好的选择。特征A对训练数据集D的信息增益g（D,A），定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差，即：g（D,A）=H(D)-
H(D|A)。
决策树的生成和修剪：使用C4.5、ID3、CART等算法，基于最好的属性值划分数据集，递归地构建决策树，直到不能继续下去为止。但这样产生的树往往对训练数据的分类很准确，但对未知的测试数据的分类却没有那么准确，即出现过拟合现象。针对这一问题，考虑决策树的复杂度，对已生成的决策树进行修剪简化。
决策树可视化
通过Python编程构建的决策树不够清晰直观，可以使用强大的Matplotlib绘制决策树。可视化需要用到的函数：