python之机器学习一：决策树之分类树（1）

最新推荐文章于 2025-04-18 21:00:24 发布

日常敲代码

最新推荐文章于 2025-04-18 21:00:24 发布

阅读量827

点赞数

分类专栏：机器学习文章标签：机器学习 python

本文链接：https://blog.youkuaiyun.com/weixin_43344103/article/details/118571558

版权

决策树

一、概述

决策树： 是有监督学习的一种算法，并且是一种基本的分类与回归的方法。
决策树分为分类树和回归树，本章主要是分类树。

二、决策树的准备工作

决策树的构建分为三个过程：特征选择、决策树的生成、决策树的剪枝

1 原理： 由根节点到叶节点构成一条规则，中间结点的特征对应着规则的条件，叶结点的特征（类标签）对应着结论。决策树路径互斥且完备，即每一个实例被有且仅有一条路径或规则覆盖（实例满足规则的条件）。

2 特征选择

目的： 选取对训练数据具有分类能力的特征。
随着划分的进行，我们希望决策树的分支节点所包含的样本尽可能属于同一类别，也就是节点的纯度越来越高。

2.1香农熵

计算所有类别所有可能值包含的信息期望值： $\sum_{i=1}^n{p(x_i)}\log_2^{p(x_i)}$

注：Ent(D)值越高，D的不纯度越高，混合数据越多。

'''
计算香农熵
'''
def calEnt(dataSet):
    n = dataSet.shape[0]
    iset = dataSet.iloc[:,-1].value_counts()  #标记类别
    p = iset/n                   #标签类别比
    ent = (-p*np.log2(p)).sum()  #信息熵
    return ent

2.2信息增益

信息增益是父节点的信息熵与其下修正后的所有子节点总信息熵之差。

假设属性a有V个可能的值{ $a^1, a^2,...,a^v$

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

日常敲代码

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

独家 | 使用Python了解分类决策树（附代码）

数据派THU

09-30

1539

作者：Michael Galarnyk翻译：李润嘉校对：和中华本文约3600字，建议阅读15分钟。本教程介绍了用于分类的决策树，即分类树，包括分类树的结构，分类树如何进行...

id3决策树鸢尾花 python_机器学习之分类回归树(python实现CART)

weixin_39715997的博客

11-29

569

机器学习之分类回归树(python实现CART)之前有文章介绍过决策树(ID3)。简单回顾一下：ID3每次选取最佳特征来分割数据，这个最佳特征的判断原则是通过信息增益来实现的。按照某种特征切分数据后，该特征在以后切分数据集时就不再使用，因此存在切分过于迅速的问题。ID3算法还不能处理连续性特征。下面简单介绍一下其他算法：CART 分类回归树CART是Classification And Rege...

参与评论您还未登录，请先登录后发表或查看评论

python小课堂-机器学习：决策树模型分类

最新发布

2301_76776680的博客

04-18

775

决策树

Python实现决策树(Decision Tree)分类

网络资源是无限的

12-23

5320

Python实现决策树(Decision Tree)分类

python分类算法_Python机器学习(1)——决策树分类算法

weixin_39612220的博客

11-20

332

1、决策树算法决策树用树形结构对样本的属性进行分类，是最直观的分类算法，而且也可以用于回归。不过对于一些特殊的逻辑分类会有困难。典型的如异或（XOR）逻辑，决策树并不擅长解决此类问题。决策树的构建不是唯一的，遗憾的是最优决策树的构建属于NP问题。因此如何构建一棵好的决策树是研究的重点。J. Ross Quinlan在1975提出将信息熵的概念引入决策树的构建，这就是鼎鼎大名的ID3算法。后续的C4...

用Python实现决策树分类算法

06-13

1. 使用Python实现基本的决策树算法； 2. 主要使用pandas的DataFrame实现； 3. 为防止过度拟合，在小于20个记录时，直接选取记录中最多类别； 3. 没有画决策树图

"基于Python的机器学习算法：决策树、随机森林与KNN分类的关联及sklearn库应用",决策树 随机森林 KNN分类关联sklearn python ,决策树; 随机森林; KNN分类

02-01

sklearn（全称scikit-learn）是一个开源的Python机器学习库，它提供了大量的机器学习算法实现，支持各种分类、回归、聚类任务，并且集成了数据预处理、交叉验证等功能。通过使用sklearn，开发者可以更加方便地实现...

机器学习-基于Python实现的机器学习算法之决策树.zip

03-03

决策树是一种广泛应用于数据挖掘和机器学习的算法，它通过构建一种树状模型来做出预测。在本资料包中，重点讲述了如何使用Python语言来实现决策树算法。Python因其丰富的库支持，成为机器学习领域非常受欢迎的编程...

基于Python3的机器学习实战：kNN、决策树等算法设计源码

10-02

本项目所提供的源码集，是在Python3这一广泛应用的编程环境下，针对机器学习算法进行实践操作的详细实现。项目中包含的文件数量众多，总计3076个，包括丰富的文本文件和程序代码文件，为机器学习爱好者和研究者提供...

python实现决策树分类（一）

momaojia的博客

06-23

4311

决策树是一种常见的分类算法，每一个叶子节点对应一个分类，非叶子节点对应某个属性的划分。决策树主要有3个部分组成，分别为决策节点，分支和叶子节点。其中决策树最顶端的节点为根决策点，每一个分支都有一个新决策点。决策节点下面是叶子节点。决策的过程从根决策点开始，从上到下。构造决策树的过程是如何选择合适的属性对样本做拆分。接下来我会主要介绍ID3算法。 ID3的核心思想：选择信息增益最大的属性进行

分类树与CART树python实现(含数据集)

12-15

分类树与CART树python实现(含数据集)，结构清晰易懂，适合初学者

python 决策分类树

linzengmin的博客

07-02

272

ID3算法：核心是在决策树各个节点上应用信息增益准则选择特征，递归的构建决策树。具体方法是：从根结点开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点；再对子结点递归的调用以上方法，构建决策树；直到所有特征的信息增益均很小或没有特征可以选择为止。ID3算法还存在另一个问题，它不能直接出来连续型特征。只有事先将连续型特征转为离散型，才能在ID3中使用。但这种转换过程会破坏连续型变量的内在性质。由于数据集是连续的数据，所以本实验采用的按区域划分的方

Python算法：决策树分类

北天的博客

09-24

5890

决策树是一种简单高效并且具有强解释性的模型，广泛应用于数据分析领域，如果你将来要从事数据方面的工作，那么就需要来了解一下。

python代码实现决策树分类

weixin_41857483的博客

10-22

8509

0. 前言上一篇博客对决策树算法的思想作了描述，也详细写了如何构造一棵决策树。现在希望用python代码来实现它。此处先调用机器学习中的算法库来实现。

python 分类树_python中列表的分类树实现

weixin_35367645的博客

01-28

343

我试图在Python中实现具有无限深度子类别的目录树，我有多个列表元素，我必须从这些元素中进行创建。在让我详细解释一下，这是我的清单。在>mylists = [>['home', 'desktop', 'mouse', 'wireless'],>['home', 'desktop', 'mouse', 'wired'],>['home', 'laptop', 'mouse'...

Python算法总结（三）决策树分类（附手写python实现代码）

cqx2020的博客

06-01

4849

（决策树既可以做分类也可以做回归，本篇侧重决策树分类）一、算法类型有监督的分类算法二、算法原理 决策树本质上是一种图结构，由根节点、内部节点、叶节点组成。根节点&内部节点是决定性特征feature，用于分支决策；叶节点用于分类决策。决策树天生过拟合，为提高模型的精度，减少模型的复杂度，往往需要剪枝处理。算法要解决三个核心问题，如何分支？如何减枝？如何给出类别判定？为回答核心问题，算法给出三个核心策略，一是分支策略，二是剪枝策略，三是分类策略。关于分支策略的几个重要指标信息量(不纯度)衡

分类——决策树算法（Python3实现）

Jason_05的博客

06-02

1617

决策树算法的核心思想：根据特征以及其对应特征值组成的元组为切点切分样本空间； 决策树算法是分类算法中的一种，ID3及C4.5决策树是多叉树。 1.熵、条件熵与信息增益熵（entropy）在信息论与概率统计中，熵（entropy）是表示随机变量不确定性的度量。X为有限个值的离散随机变量，其概率分布为： ...

决策树（python）