机器学习各类算法思路总结四(决策树与随机森林、集成学习了解)

本文介绍了决策树的基本概念、构建过程和三种算法(ID3、C4.5、CART)。详细讲解了决策树在分类与回归中的应用,并通过实例展示了代码实现。接着探讨了集成学习的原理,特别是并行化方法中的Bagging和随机森林,以及随机森林的构建过程和优势。最后,阐述了随机森林在sklearn库中的实现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

决策树

  • 简单来说,决策树,就是将数据集转化为一棵树,按照这棵树的规则,对于样本进行归类。
  • 决策树是一种非参数监督学习方法,用于分类与回归。 目标是创建一个模型,从数据特征中进行学习,进而推断出的简单决策规则,用来预测目标变量的值。
  • 决策树是一种树形结构,通过做出一系列决策(选择)来对数据进行划分,这类似于针对一系列问题进行选择。
  • 决策树的决策过程就是从根节点开始,测试待分类项中对应的特征属性,并按照其值选择输出分支,直到叶子节点,将叶子节点的存放的类别作为决策结果。
决策树的大概构建过程
  • 这里只会大概说,详细的请看:
  • 决策树由若干个节点构成,根节点存放着所有样本的数量,旗下的每个节点存放着一定数量的样本,根据从特征中得出的条件,逐步的分化节点,一直到指定的深度,或者所有的叶子节点都只是一个类别,所有的样本数量小于指定的最小分类的样本数量。
  • 分裂的时候,根据信息熵求出每个特征的信息增益,然后找出最大信息增益的特征
  • 求信息增益的时候,有个问题就是,特征中,有俩种类型,一种为离散型,一种为连续型;
  • 对于离散型,一般就是 类似于 是与不是的值,直接求信息增益就可以了
  • 对于连续值,需要将特征进行排序,然后根据对应的标签,找出分界点,然后将所有的分界点分别求信息增益
  • 然后找出所有的信息增益中,最大的信息增益,不断地根据最大的信息增益的特征,进行分裂属性。
构建决策树有三种算法
  • ID3
  • C4.5
  • CART(Classification And Regression Tree)
    在这里插入图片描述
参数与实现说明
  • sklearn中提供的决策树是CART模型。因此构建的树为二叉树结构。
  • 参数max_feature,值切分时,选择的最大特征的数量。因为如果随机选择特征作为切分标准,则效果可能较差。这时,我们可以指定max_feature,即从原有的所有特征中,最多选择max_fea
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值