基尼系数是衡量不平等程度的一种常用指标,常被应用于经济学、社会学和机器学习等领域。在机器学习中,基尼系数常用于衡量分类模型的纯度和特征的重要性。本文将介绍基尼系数的概念,并提供使用Python计算基尼系数的示例代码。
基尼系数是在0到1之间的值,其中0代表完全平等的分布,而1代表完全不平等的分布。在分类问题中,基尼系数衡量了从给定数据集中随机选择两个样本,其类别标签不一致的概率。基尼系数越接近于0,说明数据集的纯度越高,而接近于1则表示数据集的不平等程度越高。
在Python中,我们可以使用NumPy和Scikit-learn库来计算基尼系数。下面是一个计算基尼系数的示例代码:
import numpy as np
from sklearn.metrics import pairwise_distances
def gini_coefficient(labels)