机器学习——编程实现从零构造训练集的决策树

原创

已于 2024-03-18 19:10:01 修改 · 1.1k 阅读

·

39

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #决策树 #人工智能

于 2024-03-18 00:39:41 首次发布

自己搭建一棵决策树【长文预警】

忙了一个周末就写到了“构建决策树”这一步，还没有考虑划分测试集、验证集、“缺失值、连续值”，预剪枝、后剪枝的部分，后面再补吧（挖坑）

第二节内容：验证集划分\k折交叉检验机器学习——编程从零实现决策树【二】-优快云博客

目录

1）基本算法过程

2）信息熵和信息增益的计算方式

2、做点假设，简化运算

3、拆解算法过程

1）同类样本判断

2）数据集能否再拆解

3）选取最优属性

4）构造新结点

4、完整的结点类代码

5、完整的构造树的过程

1）准备数据集

7、绘图查看树的结构

1）绘图代码

完整的代码指路

DrawPixel/decisionTree.ipynb at main · ndsoi/DrawPixel (github.com)

1、信息

1）基本算法过程

2）信息熵和信息增益的计算方式

2、做点假设，简化运算

① 为了选择最优的属性进行划分，我们需要计算信息增益，而计算信息增益需要用到信息：

1、选取的属性attr有多少种取值？

(用西瓜分类的例子，考虑属性”纹理“，就有3种取值——”清晰“、”稍糊“和”模糊“）

2、每种取值有哪些数据?这些数据中有多少是A类别的，又有多少是B类别的..？

比如对原始数据集考虑”纹理=清晰“的数据，那么有7个是好瓜，有2个是坏瓜

② 计算完信息增益之后，我们选信息增益最大的属性，按照这个属性划分数据集，生成子结点

注意这里的划分数据集，事实上我们在完成①.2问题的时候就已经“划分了”一次数据集，只是我们没有记录下来，类似这样的“冗余”计算有很多，为了尽量减少“重复”计算，我重规划算法的步骤如下：

1、设总共有class_num个类别，假设我们初始化结点node的时候就知道了这个数据集的如下信息：

数据集 self.data

属性集 self.attr

该数据集内样本数量最多的类别 self.max

该数据集内每个类别的样本数量 self.cal_class 是一个列表，每一个元素是|Dv|

2、基于假设1：

计算Ent(D)：

def Ent(D,cal_class):
  sum = len(D) # 样本总数
  # 求占比
  re = 0
  for k in cal_class:
    pk_class = k/sum
    if pk_class != 0:
      re -= pk_class* math.log(pk_class,2)
  return re

3、拆解算法过程

0）结点类

class Node():
  def __init__(self,D,A,max,cal_class,class_num):
    self.data = D
    self.attr = A
    self.class_num = class_num
    self.cal_class = cal_class

    self.max = max
    self.label = 0 # 0表示非叶结点 1表示叶结点
    self.Class = 0 # 默认一个
    self.flag = "init"

1）同类样本判断

若要判断D中的样本是否同属于一个类别：只需要判断self.max的数量是否等于class_num

  def isSameClass(self):
    if self.cal_class[self.max] == len(self.data):
      return True
    return False

2）数据集能否再拆解

若D中样本不属于同一类，那么接下来要看D中的样本是否还能再分解：

def isNoAttr(self

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄4年

22
原创

434
点赞

334
收藏

375
粉丝

关注

私信

热门文章

分类专栏

web大作业 1篇
Vue 1篇
计算方法 3篇
机器学习 5篇
web 7篇
多媒体技术 2篇

展开全部收起

上一篇：: 计算方法——三次样条插值

下一篇：: 机器学习——编程从零实现决策树【二】

最新评论

机器学习——贝叶斯分类器（基础理论+编程）
小纸君: 谢谢评论，之前整理仓库忘记改了，新的链接是：https://github.com/ndsoi/MachineLearning/blob/main/Bayesian_decison.ipynb
机器学习——贝叶斯分类器（基础理论+编程）
hhdxhll1985: 你好，代码的链接失效了
web布局——说清楚fixed布局
优快云-Ada助手: 恭喜您写了第20篇博客！看到您对web布局中的fixed布局有深入的讲解，让我受益匪浅。希望您能继续坚持创作，分享更多有价值的内容给大家。下一步，建议您可以尝试探讨一些实际案例或者应用场景，让读者更好地理解和运用这些布局技巧。期待您的更多精彩文章，加油！🌟👏
机器学习——贝叶斯分类器（基础理论+编程）
优快云-Ada助手: 恭喜您撰写了关于贝叶斯分类器的精彩博文！您对基础理论和编程实现进行了详细解释，让读者能够更深入地了解这一概念。希望您能继续保持创作的热情，探索更多机器学习算法，并分享给大家。或许在下一篇博客中可以深入探讨贝叶斯分类器的实际应用场景，或者与其他分类算法进行比较分析，让读者能够更全面地了解不同算法的优缺点。期待您的下一篇作品！
机器学习——决策树（三）预剪枝
优快云-Ada助手: 恭喜您在机器学习领域的持续探索，第16篇博客内容关于决策树的预剪枝非常有深度。建议您在接下来的创作中，可以尝试探讨一些实际案例，比如在某个具体领域中应用决策树算法的实际效果和挑战。期待您更多的精彩内容！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。