文章目录
前言
在决策树排序过程中,可以根据基尼值和基尼系数增益来确定哪些特征需要先决策、哪些后决策,构建一棵最有的决策树。
一、基尼值、基尼系数增益计算公式
基尼值:从数据集中随机抽取两个样本,其类别标记不一致的概率,基尼值越小,数据集纯度越高。
G i n i ( D ) = ∑ k = 1 y ∑ k ′ ≠ k p k p k ′ = 1 − ∑ k = 1 y p k 2 Gini(D)=\sum_{k=1}^y\sum_{k'≠k}p_kp_k'=1-\sum_{k=1}^yp_k^2 Gini(D)=k=1∑yk′=k∑pkpk′=1−k=1∑ypk2
基尼指数:选择使划分后基尼系数最小的属性作为最优化分属性
G i n i _ i n d e x ( D , a ) = ∑ v = 1 V ∣ D v ∣ ∣ D ∣ G i n i ( D v ) Gini\_index(D,a)=\sum_{v=1}^V\frac{|D^v|}{|D|}Gini(D^v) Gini_index(D,a)=v=1∑V∣D∣∣Dv∣Gini(Dv)
基尼增益:选择基尼增益最大的点进行优化划分
二、案例
1.引入是否拖欠贷款数据
2.计算基尼值和基尼指数
1.开始将所有记录看做是一个节点,此时拖欠贷款的数量是3,不拖欠贷款的数量是7,因此
G i n i ( D ) = 1 − ( 3 10 ) 2 − ( 7 10 ) 2 = 0.42 Gini(D)=1-(\frac{3}{10})^2-(\frac{7}{10})^2=0.42 Gini(