Python AI教程之十三:监督学习之决策树(4)决策树中的概念和指标

决策树中的概念和指标

一、ML | 决策树中的基尼不纯度和熵

基尼系数

  • 基尼系数是划分决策树的附加方法。
  • 连接处的纯度和杂质是熵和信息增益框架的主要关注点。
  • 基尼系数(也称为不纯度)计算随机挑选的实例以某种方式被错误分类的可能性。 

机器学习是计算机科学领域,它使计算机无需明确编程即可学习。机器学习是每个人都想学习的最热门技术之一,大多数公司都需要高技能的机器学习工程师。在这个领域,开发了各种机器学习算法来轻松解决复杂问题。这些算法高度自动化和自我修改,随着数据量的增加和所需人工干预的减少,它们会随着时间的推移不断改进。

。 

决策树是机器学习中最流行、最强大的分类算法之一。决策树的名称本身就表示它用于根据给定的数据集做出决策。决策树背后的概念是,它有助于选择合适的特征将树拆分为子部分,而拆分背后使用的算法是 ID3。如果决策树构建合适,则树的深度将较小,否则深度将较大。为了有效地构建决策树,我们使用熵的概念要了解有关决策树的更多信息,请单击此处。在本文中,我们将更多地关注基尼不纯度和熵之间的区别。 

熵: 

  • “熵”一词源自物理学,指无序性的指标。在信息论中,与随机选择的变量的潜在结果相关的“信息”、“意外”或“不确定性”的预期量被定义为变量的熵。
  • 熵是一种可量化和可测量的物理属性,也是一个科学概念,经常与无序、不可预测或不确定的情况相关。 
  • 从最初定义的经典热力学,到统计物理学中对存在的宏观描述,再到信息论的原理,这个术语和概念被广泛应用于各种研究领域
     

如上所述,熵有助于我们构建合适的决策树,以选择最佳分割器。熵可以定义为子分割纯度的度量。熵始终介于 0 到 1 之间。任何分割的熵都可以通过此公式计算。 

该算法在每次分割后计算每个特征的熵,随着分割的继续,它会选择最佳特征并根据它开始分割。 有关熵的详细计算示例,您可以参考本文。 

基尼不纯度: 基尼不纯度的内部工作原理也与决策树中熵的工作原理有些相似。 在决策树算法中,两者都用于根据适当的特征进行分割来构建树,但两种方法的计算有很大不同。 可以使用此公式计算分割后特征的基尼不纯度。 


有关基尼不纯度的详细计算示例,您可以参考本文。使用上述公式计算特征/分割的基尼不纯度。 

熵与基尼不纯度: 现在我们已经了解了基尼不纯度和熵以及它的实际工作原理。此外,我们已经了解了如何计算分割/特征的基尼不纯度/熵。但这里出现的主要问题是,为什么我们需要两种计算方法以及哪种方法更好。 

这两种方法的内部工作原理相似,因为它们用于计算每次分割后特征的不纯度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

潜洋

你的鼓励是我创作最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值