决策树：什么是基尼系数（“杂质增益指数系数”辨析）

最新推荐文章于 2024-12-31 23:28:13 发布

原创

最新推荐文章于 2024-12-31 23:28:13 发布 · 9.9w 阅读

CC 4.0 BY-SA版权

本文深入解析决策树中的基尼系数，包括基尼杂质系数、基尼增益系数和基尼指数的概念，并通过实例展示了如何计算基尼系数。在决策树的划分选择中，基尼系数用于量化划分效果，帮助找到最佳分割点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

决策树：什么是基尼系数

在我翻译学习这篇Random Forests for Complete Beginners的时候，对基尼系数和它相关的一些中文表达充满了疑问，查了一些资料以后，完成了这篇文章。其中基尼杂质系数的计算和解释参考了A Simple Explanation of Gini Impurity。

如果你查看scikit-learn中DecisionTreeClassifier的文档，你会看到这样的参数：
scikit学习
RandomForestClassifier文档里也谈到了gini。那么两者都提到并作为默认标准的基尼系数是什么？

你在不同的地方往往能看到关于基尼的不同名词，我查询了一大堆文献，发现它们的使用遵循以下规律：

基尼杂质系数/基尼不纯系数(Gini Impurity):等效于我们通常说的基尼系数，在上面提到的分类器文档里的就是它，计算方法在后面将提到。
基尼增益系数/基尼系数增益(Gini Gain):表征某个划分对基尼系数的增益，使用原基尼杂质系数减去按样本占比加权的各个分支的基尼杂质系数来计算，计算方法在后面将提到。
基尼指数(Gini index)：这是一个尴尬的问题，因为有人把它等价于gini impurity，但也有人把它用作gini coefficient。需要结合上下文来判断。
基尼系数(Gini coefficient)：表征在二分类问题中，正负两种标签的分配合理程度。当G=0，说明正负标签的预测概率均匀分配，模型相当于是随机排序。这个名词也在经济学中也有使用，本质是相同的，是用来表征一个地区财富的分配的合理程度。当G=0，说明财富均匀分配。