机器学习决策树的Python实现详细流程及原理解读_1

本文介绍了决策树的优势及其构造过程,重点讲解了如何通过信息增益选择最佳划分特征,并提供了信息熵的理论解释。文章引用了《Data Mining Concepts and Techniques》中的内容,说明了信息增益的计算方法,并以实际例子展示了如何根据信息增益选择属性进行数据划分。下期将探讨Python中划分数据集的具体实现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 决策树的优势

决策树作为处理分类问题最经常被用到的算法,它有着优于其他机器学习算法的简明性特征,即无需了解机器学习的原理知识也能够轻松的了解这个算法是如何工作的。

2.决策树的构造

   (1). 找到决定性的特征,这个特征将帮助我们最好的划分集合
    举例: 

      流程图

完成测试,原始数据被划分成几个子集,如果某个分支下的所有数据已经属于同一子集,则无需继续划分。如果数据集合中的数据仍然不属于同一类型,则需要继续划分。划分原则同划分原始数据,该过程将一直持续直到所有数据子集都属于同一类型。
   (2). 算法伪代码 – 递归实现
createBranch()
    Check whether data belong to the same class:
      if return class_label
      else
          find the optimal feature to divide the dataset
          divide dataset
          create branch node
              for every divided subset
                  call function createBranch() and
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值