决策树中的概念和指标
一、ML | 决策树中的基尼不纯度和熵
基尼系数
- 基尼系数是划分决策树的附加方法。
- 连接处的纯度和杂质是熵和信息增益框架的主要关注点。
- 基尼系数(也称为不纯度)计算随机挑选的实例以某种方式被错误分类的可能性。
机器学习是计算机科学领域,它使计算机无需明确编程即可学习。机器学习是每个人都想学习的最热门技术之一,大多数公司都需要高技能的机器学习工程师。在这个领域,开发了各种机器学习算法来轻松解决复杂问题。这些算法高度自动化和自我修改,随着数据量的增加和所需人工干预的减少,它们会随着时间的推移不断改进。
。
决策树是机器学习中最流行、最强大的分类算法之一。决策树的名称本身就表示它用于根据给定的数据集做出决策。决策树背后的概念是,它有助于选择合适的特征将树拆分为子部分,而拆分背后使用的算法是 ID3。如果决策树构建合适,则树的深度将较小,否则深度将较大。为了有效地构建决策树,我们使用熵的概念。要了解有关决策树的更多信息,请单击此处。在本文中,我们将更多地关注基尼不纯度和熵之间的区别。
熵:
- “熵”一词源自物理学,指无序性的指标。在信息论中,与随机选择的变量的潜在结果相关的“信息”、“意外”或“不确定性”的预期量被定义为变量的熵。
- 熵是一种可量化和可测量的物理属性,也是一个科学概念,经常与无序、不可预测或不确定的情况相关。
- 从最初定义的经典热力学,到统计物理学中对存在的宏观描述,再到信息论的原理,这个术语和概念被广泛应用于各种研究领域
如上所述,熵有助于我们构建合适的决策树,以选择最佳分割器。熵可以定义为子分割纯度的度量。熵始终介于 0 到 1 之间。任何分割的熵都可以通过此公式计算。
该算法在每次分割后计算每个特征的熵,随着分割的继续,它会选择最佳特征并根据它开始分割。 有关熵的详细计算示例,您可以参考本文。
基尼不纯度: 基尼不纯度的内部工作原理也与决策树中熵的工作原理有些相似。 在决策树算法中,两者都用于根据适当的特征进行分割来构建树,但两种方法的计算有很大不同。 可以使用此公式计算分割后特征的基尼不纯度。
有关基尼不纯度的详细计算示例,您可以参考本文。使用上述公式计算特征/分割的基尼不纯度。
熵与基尼不纯度: 现在我们已经了解了基尼不纯度和熵以及它的实际工作原理。此外,我们已经了解了如何计算分割/特征的基尼不纯度/熵。但这里出现的主要问题是,为什么我们需要两种计算方法以及哪种方法更好。
这两种方法的内部工作原理相似,因为它们用于计算每次分割后特征的不纯度。