机器学习之决策树

herry_drj

已于 2023-09-06 08:40:09 修改

阅读量1.4k

点赞数 3

分类专栏：机器学习文章标签： python

于 2022-04-02 13:33:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_63669388/article/details/123918007

版权

机器学习专栏收录该内容

2 篇文章

订阅专栏

本文介绍了决策树的基本概念，包括根节点、中间节点、叶节点的定义，并详细阐述了特征选择、信息熵、信息增益等核心概念。通过代码展示了如何计算信息熵、信息增益以及如何按照信息增益选择最佳切分列来构建决策树。同时，还提供了数据集划分、决策树构建及准确度评估的方法，帮助读者理解并实现决策树算法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

http://t.csdn.cn/2sWSP决策树

http://t.csdn.cn/NdlCs next（）and iter（）函数

http://t.csdn.cn/tRN4I sort_values and value_counts()函数

http://t.csdn.cn/Uqmtt pandas库

决策树

根节点：没有进只有出

中间节点：有进有出，进边只有一条，出边可以很多条

叶节点：只有进，每个叶节点都是一个类别标签

父节点和子节点：相对而言

每一个实例都被有且只有一条路径或者规则所覆盖。

特征选择选取：选择纯度高的节点（分支节点所包含的样本尽可能属于同一类别）

常常衡量不纯度的指标有：熵（香农熵），增益率，基尼指数

创造数据：

关于鱼类的分类表 {水生有无脚蹼}

计算信息熵

代码实现：

信息增益：

代码实现：

计算信息增益即寻找最佳切分列代码实现如下

按照给定序列切分数据集

代码实现：

主体代码：递归构建决策树

对已给数据集进行分类：

切分已经给定数据集为训练集和测试集：

计算生成的决策树的准确度

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

herry_drj 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。