机器学习实战 -- 决策树

最新推荐文章于 2025-05-09 11:37:24 发布

Ashlyn_z

最新推荐文章于 2025-05-09 11:37:24 发布

阅读量227

点赞数

分类专栏：机器学习文章标签：机器学习机器学习实战决策树

本文链接：https://blog.youkuaiyun.com/qq_42231980/article/details/85220075

版权

机器学习实战 -- 决策树

决策树

决策树

一、决策树算法简介

决策树算法包含：特征选择，决策树的生成与决策树的剪枝（本文暂不做介绍）。
优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。
缺点：可能会产生过度匹配问题。
适用数据类型：数值型和标称型。

本文采用 ID3生成算法。

二、工作原理

经验熵(empirical entropy)

$H(D)=-\sum^{K}_{k=1}\frac{|\:C_k\:|}{|\:D\:|}\log_2\frac{|\:C_k\:|}{|\:D\:|}$

$D$ ：训练数据集 $D$
$C_k$ ：有 $k$ 个类； $C_1,C_2,...,C_k$
$MediumSpace; ∣ |\:C_k\:|$ ： $C_k$ 类的样本个数
$|\:D\:|$ ：训练数据集 $D$ 的个数

$eg:数据集D，分为yes（C_1）和no（C_2）两类，如表1：$
$表 1$

no surfacing	filppers	类别
1	1	yes
1	1	yes
1	0	no
0	1	no
0	1	no

$C_1$ 类的样本个数为：2，即： $|\:C_1\:|=2$

$C_2$ 类的样本个数为：3，即： $|\:C_2\:|=3$

$∣ D ∣$ 训练数据样本总数为：5，即： $|\:D\:|=5$

$\begin{aligned} H(D)&=-\frac{2}{5}\log_2\frac{2}{5}-\frac{3}{5}\log_2\frac{3}{5} \\ &=0.97 \end{aligned}$

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Ashlyn_z

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

机器学习 --- 决策树 python

weixin_44196785的博客

10-22

1万+

简介 决策树说通俗点就是一棵能够替我们做决策的树，或者说是我们人类在要做决策时脑回路的一种表现形式。本实训项目的主要内容是基于 python 语言搭建出决策树模型对数据分类，并使用 sklearn 的决策时模型对鸢尾花数据进行分类。 信息熵与信息增益 import numpy as np def calcInfoGain(feature, label, index): ''' 计算信息增益 :param feature:测试用例中字典里的feature，类型为ndarray

【机器学习】sclearn分类算法-决策树、随机森林

weixin_45334823的博客

07-08

1100

分类算法-决策树、随机森林1.决策树1.1 认识决策树1.2 信息论基础-银行贷款分析1.3 决策树的生成1.4 决策树的划分依据之一-信息增益1.5 sklearn决策树API1.6 泰坦尼克号乘客生存分类2. 集成学习方法-随机森林 1.决策树 1.1 认识决策树 决策树思想的来源非常朴素，程序设计中的条件分支结构就是if-then结构，最早的决策树就是利用这类结构分割数据的一种分类学习方法 1.2 信息论基础-银行贷款分析每猜一次给一块钱，告诉我是否猜对了，那么我需要掏多少钱才能知道谁

参与评论您还未登录，请先登录后发表或查看评论

决策树模型

m0_74017503的博客

04-30

591

决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶子节点代表一种类别。树的组成：（如下图示，来源百度，只做结构演示说明）根节点：第一个选择点非叶子结点与分支：中间过程叶子节点：最终的决策结果决策树是一树状结构，它的每一个叶节点对应着一个分类，非叶节点对应着在某个属性上的划分，根据样本在该属性上的不同取值将其划分成若干个子集。对于非纯的叶节点，多数类的标号给出到达这个节点的样本所属的类。构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分。

头歌机器学习---决策树

liiuyizeliuyize的博客

05-07

1万+

头歌机器学习---决策树

基于信息熵的决策树算法代码详解

深度学习客

04-02

928

下面给出一个使用 C4.5 算法生成决策树并可视化的示例代码，需要注意的是，这里的示例代码中，使用了 Graphviz 软件和 Pydotplus 库来将决策树可视化，因此需要先安装 Graphviz 软件和 Pydotplus 库。C4.5 算法：C4.5 算法是 ID3 算法的改进版，它使用信息增益比作为特征选择的标准，可以处理连续值特征和缺失值，并且在处理缺失值时使用了更加高效的方法。同时，由于决策树算法的可解释性比较强，因此决策树的可视化在数据分析和建模中有着广泛的应用。

机器学习实战-手撕决策树

05-18

【决策树模型】是一种广泛应用的监督学习方法，尤其在分类问题中表现突出。它通过创建一个树状模型来表示样本空间及其类别分配规则。在这个实验中，我们将关注决策树在【鸢尾花数据集】上的应用，这是一个经典的数据...

机器学习实战(第三章-决策树-ID3算法-所有代码与详细注解-python3.7)

12-09

决策树是一种广泛应用于数据挖掘和机器学习的监督学习方法，主要用作分类任务。ID3（Iterative Dichotomiser 3）算法是最早的决策树构建算法之一，由Ross Quinlan于1986年提出。这个压缩包文件包含了关于ID3算法的...

机器学习实战 - 决策树PDF知识点总结 + 代码实现

04-27

【决策树】是一种监督学习算法，常用于分类和回归任务。在分类问题中，决策树构建一个树形结构，通过一系列特征测试来做出预测。每个内部节点代表一个特征，每个分支代表特征的一个可能值，而叶节点则表示一个类别。...

Python机器学习实战-数据&代码.rar

04-06

在本资源"Python机器学习实战-数据&代码.rar"中，我们可以期待深入探索Python语言在机器学习领域的应用。这个压缩包包含的是与机器学习相关的数据集以及配套的代码，为学习者提供了一手的实践经验。Python是当今最...

机器学习实战--Python基础篇视频教学

06-10

《机器学习实战--Python基础篇视频教学》课程旨在为学员提供深入浅出的Python语言教程，特别是针对在机器学习和人工智能领域中应用的基础知识。Python作为数据科学和机器学习的首选语言，其简洁的语法和丰富的库使得...

决策树，信息熵，信息增益计算----机器学习

鹿西西吧的博客

11-18

1万+

决策树（decision tree）决策树简单介绍信息量信息熵信息增益 决策树简单介绍 决策树是一种基于树状结构来做决策的。是一种常见的机器学习方法。主要做分类，也可以做回归。一棵决策树含有一个根结点（样本全集），若干个内部结点和若干个叶结点（最终结论）。简单的一个例子。比如我们相亲的时候，老母亲甩出来一沓照片来让你做选择。这时候我们会问一些问题来做一下筛选，比如对方的年龄，相貌，工作收入，家庭住址等等等，然后最终确定选择两个或三个人去见。这一系列问题和层层的筛选判断就是在做决策，这些问题为“子决策”。

决策树---使用三种方法对数据建立决策树

weixin_48882021的博客

10-28

6831

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、决策树原理二、使用步骤 1.引入库 2.读入数据总结前言提示：通过自己搜集数据对决策树分类进行测试。提示：以下是本篇文章正文内容，下面案例可供参考一、决策树原理 决策树是一个预测判别模型。它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，每个分支路径代表某个可能的属性值，每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的...

机器学习实战——决策树构建过程，信息熵及相关代码

weixin_42305378的博客

05-15

1693

决策树基本概念 决策树就是一棵树，可解释性强，可用if-then规则解释，易让人理解。决策树的生成是一个递归的过程，一颗决策树包含一个根节点、若干个内部结点和若干个叶结点；叶结点对应于决策结果，其他每个结点则对应于一个属性测试；每个结点包含的样本集合根据属性测试的结果被划分到子结点中；根结点包含样本全集，从根结点到每个叶子结点的路径对应了一个判定测试序列。下图是以买电脑为例构造的决策树。构建决策树 选择最优特征再讲选择最优特征前先补充我们需要用到的信息熵和信息增益，这二个也是进行最优特征选取的关键所

2021-10-28

weixin_50909683的博客

10-28

372

决策树之挑选好西瓜一、决策树 决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度，使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。 决策树是一种树形结构

sklearn中决策树初始化 DecisionTreeClassifier 的参数说明