【深度学习-基尼值与基尼系数增益构建决策树】

文章讲述了如何利用基尼值和基尼系数增益在决策树算法中评估特征重要性,通过计算不同特征的划分效果,选择最优分割点,以提高数据集的纯度。案例分析了贷款数据中的特征划分,最后强调了特征选择和基尼系数更新对决策树构建的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


前言

在决策树排序过程中,可以根据基尼值和基尼系数增益来确定哪些特征需要先决策、哪些后决策,构建一棵最有的决策树。


一、基尼值、基尼系数增益计算公式

基尼值:从数据集中随机抽取两个样本,其类别标记不一致的概率,基尼值越小,数据集纯度越高。
G i n i ( D ) = ∑ k = 1 y ∑ k ′ ≠ k p k p k ′ = 1 − ∑ k = 1 y p k 2 Gini(D)=\sum_{k=1}^y\sum_{k'≠k}p_kp_k'=1-\sum_{k=1}^yp_k^2 Gini(D)=k=1yk=kpkpk=1k=1ypk2
基尼指数:选择使划分后基尼系数最小的属性作为最优化分属性
G i n i _ i n d e x ( D , a ) = ∑ v = 1 V ∣ D v ∣ ∣ D ∣ G i n i ( D v ) Gini\_index(D,a)=\sum_{v=1}^V\frac{|D^v|}{|D|}Gini(D^v) Gini_index(D,a)=v=1VDDvGini(Dv)

基尼增益:选择基尼增益最大的点进行优化划分

二、案例

1.引入是否拖欠贷款数据
Alt
2.计算基尼值和基尼指数

1.开始将所有记录看做是一个节点,此时拖欠贷款的数量是3,不拖欠贷款的数量是7,因此
G i n i ( D ) = 1 − ( 3 10 ) 2 − ( 7 10 ) 2 = 0.42 Gini(D)=1-(\frac{3}{10})^2-(\frac{7}{10})^2=0.42 Gini(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值