Python AI教程之十三：监督学习之决策树（4）决策树中的概念和指标-优快云博客

本文链接：https://blog.youkuaiyun.com/xt14327/article/details/144973336

决策树中的概念和指标

一、ML | 决策树中的基尼不纯度和熵

基尼系数

基尼系数是划分决策树的附加方法。
连接处的纯度和杂质是熵和信息增益框架的主要关注点。
基尼系数（也称为不纯度）计算随机挑选的实例以某种方式被错误分类的可能性。

机器学习是计算机科学领域，它使计算机无需明确编程即可学习。机器学习是每个人都想学习的最热门技术之一，大多数公司都需要高技能的机器学习工程师。在这个领域，开发了各种机器学习算法来轻松解决复杂问题。这些算法高度自动化和自我修改，随着数据量的增加和所需人工干预的减少，它们会随着时间的推移不断改进。

。

决策树是机器学习中最流行、最强大的分类算法之一。决策树的名称本身就表示它用于根据给定的数据集做出决策。决策树背后的概念是，它有助于选择合适的特征将树拆分为子部分，而拆分背后使用的算法是 ID3。如果决策树构建合适，则树的深度将较小，否则深度将较大。为了有效地构建决策树，我们使用熵的概念。要了解有关决策树的更多信息，请单击此处。在本文中，我们将更多地关注基尼不纯度和熵之间的区别。

熵：

“熵”一词源自物理学，指无序性的指标。在信息论中，与随机选择的变量的潜在结果相关的“信息”、“意外”或“不确定性”的预期量被定义为变量的熵。
熵是一种可量化和可测量的物理属性，也是一个科学概念，经常与无序、不可预测或不确定的情况相关。
从最初定义的经典热力学，到统计物理学中对存在的宏观描述，再到信息论的原理，这个术语和概念被广泛应用于各种研究领域

如上所述，熵有助于我们构建合适的决策树，以选择最佳分割器。熵可以定义为子分割纯度的度量。熵始终介于 0 到 1 之间。任何分割的熵都可以通过此公式计算。

该算法在每次分割后计算每个特征的熵，随着分割的继续，它会选择最佳特征并根据它开始分割。有关熵的详细计算示例，您可以参考本文。

基尼不纯度： 基尼不纯度的内部工作原理也与决策树中熵的工作原理有些相似。在决策树算法中，两者都用于根据适当的特征进行分割来构建树，但两种方法的计算有很大不同。可以使用此公式计算分割后特征的基尼不纯度。