基尼值和基尼指数

本文介绍了CART决策树算法,该算法使用基尼指数选择最优划分属性。基尼指数衡量数据集的纯度,数值越小表示纯度越高。在构建决策树的过程中,通过计算各属性的基尼指数,选取最小值作为划分依据。文章还提供了一个案例,展示了如何依据基尼指数构建决策树的过程,并总结了CART算法的基本流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

CART 决策树 [Breiman et al., 1984] 使用"基尼指数" (Gini index)来选择划分属性。CART 是Classification and Regression Tree的简称,这是一种著名的决策树学习算法,分类和回归任务都可用。

一、基尼值和基尼指数

基尼值Gini(D):从数据集D中随机抽取两个样本,其类别标记不一致的概率。故,Gini(D)值越小,数据集D的纯度越高。

数据集 D 的纯度可用基尼值来度量:

                                                            

其中:

基尼指数Gini_index(D):一般,选择使划分后基尼系数最小的属性作为最优化分属性。

                                                             

二、案例

请根据下图列表,按照基尼指数的划分依据,做出决策树。

1,对数据集非序列标号属性{是否有房,婚姻状况,年收入}分别计算它们的Gini指数,取Gini指数最小的属性作为决策树的根节点属性。

2、第二次大循环

3、经过如上流程,构建的决策树,如下图:

现在总结一下CART的算法流程

while(当前节点"不纯"):
    1.遍历每个变量的每一种分割方式,找到最好的分割点
    2.分割成两个节点N1和N2
end while
每个节点足够“纯”为止

 

 

### 决策树中基尼系数基尼指数的概念及计算 #### 基尼系数概念及其重要性 在决策树算法中,基尼系数用于衡量数据集的纯度。对于给定的数据集 \(D\) ,如果按照某个属性进行划分,那么可以利用基尼系数评估这种划分的好坏。基尼系数越低表示数据集越纯净,即属于同一类别的概率越高。 #### 基尼系数的定义与计算公式 设某节点含有\(N\)个样本,共有\(K\)种可能类别,在第\(k\)种类别下的样本数记作\(C_k\) 。此时该节点对应的基尼系数可由下述公式得出: \[ Gini(D)=\sum_{k=1}^{K}\left(\frac{C_k}{N}\right)\left(1-\frac{C_k}{N}\right) \] 此表达式表明了当随机选取两个样本时它们不属于同一个类的概率总[^1]。 #### 利用基尼系数增益选择最优分割点 为了找到最佳分裂条件,通常会考虑所有候选特征并分别计算其带来的基尼系数减少量——也称为基尼系数增益。具体来说就是比较父节点与各子节点之间的差异程度,从而挑选出能使整体不确定性下降最多的那个特征来进行下一步操作。 #### 关于基尼指数的理解 而所谓的“基尼指数”,实际上是指基于某一特定属性A对原始集合S做二分之后所获得的新加权平均后的基尼。简单理解就是在原有基础上加入了权重因素考量的结果。因此可以说,“基尼指数”更侧重反映的是经过一次切分动作后整个系统的混乱状况变化情况;相比之下,“基尼系数”更多关注单个节点内部成员构成比例关系所带来的影响[^2]。 ```python def gini_index(groups, classes): n_instances = float(sum([len(group) for group in groups])) gini = 0.0 for group in groups: size = float(len(group)) if size == 0: continue score = 0.0 for class_val in classes: p = [row[-1] for row in group].count(class_val) / size score += p * p gini += (1.0 - score) * (size / n_instances) return gini ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值