西瓜书 习题4.4 编程实现基尼指数决策树

该博客介绍了如何基于基尼指数实现决策树,通过对比熵的决策树,指出基尼指数可能导致多种解法,特别是在属性值Gini值相同时需要引入随机性。博主分享了一段代码,并提醒注意在使用numpy时深拷贝的问题,以及展示了不同运行得到的混淆矩阵结果,强调应选择在测试集中表现好的模型。剪枝部分未涉及。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据及代码地址:https://github.com/qdbszsj/decisionTreeGini

这里的代码在信息熵决策树的基础上稍加修改就可以,之前是根据熵增的最大值来确定用哪个属性划分,现在是根据基尼指数(表现数据集D的纯度)的最小值来建树。

这里网上的很多人说建出来的树长得和书上的不一样!一样TM就怪了,书上P81页的树那是根据entropy建的,我们建出来的树是根据Gini index的,而且经常会遇到有属性值的Gini值相同,比如根节点,脐部和色泽,这俩属性的Gini指数都是0.875,所以用谁都行,那么这里就要加入随机因素,所以我这份代码跑出来的结果都是千变万化的,根据理论来讲,这个树有很多种解法。

具体的代码过程解释,请看我的上一篇博客,习题4.3,这里改动不大。

然后有一点要注意的,一个bug我调了好久。我传入的参数A,应该是一个list,但是我用np.ones初始化的,然后想用newA=A[ : ]深copy的时候,会出问题,numpy是不支持B=A[ : ]这样子深拷贝的,这样子copy出来的是浅拷贝,把B改了,A也跟着改了,这个问题出现在了我的建树的递归函数里。解决这个问题,要么一开始你就list(A)一下强制转换,后面就可以用B=A[ : ]深拷贝了,或者你写的时候就用numpy,然后import copy,用B=copy.deepcopy(A)来深拷贝。

程序最下面,我用建好的树,去预测了一下7个测试用例,输出了混淆矩阵,每次的运行,树都建的不一样,混淆矩阵的结果也不一样,出入很大,意外的一次运行,我发现了一个很棒的结果,正确率100%。在实际操作中,我们也是应该挑选这种在测试集中表现好的模型,来作为我们的最终模型。

剪枝,这里没有做,后面有时间再写。

#make the data watermelon_2 from 3
# import numpy as np
# import pandas as pd
# dataset = pd.read_csv('/home/parker/watermelonData/watermelon_3.csv', delimiter=",")
# del dataset['密度']
# del dataset['含糖率']
# dataset.to_csv('/home/parker/watermelonData/watermelon_2.csv',header=True,index=False)

# import numpy as np
# import pandas as pd
# dataset = pd.read_csv('/home/parker/watermelonData/watermelon_2.csv', delimiter=",")
# #print(dataset)
# trainID=[0,1,2,5,6,9,13,14,15,16]
# testID=[3,4,7,8,10,11,12]
# trainData=dataset.iloc[trainID,range(8)]
# testData=dataset.iloc[testID,range(8)]
# print(trainData)
# print(testData)
# trainData.to_csv('/home/parker/watermelonData/watermelon_2train.csv', header=True, index=False)
# testData.to_csv('/home/parker/watermelonData/watermelon_2test.csv', header=True, index=False)

import numpy as np
import pandas as pd
dataset = pd.read_csv('/home/parker/watermelonData/watermelon_2train.csv', delimiter=",")
testData = pd.read_csv('/home/parker/watermelonData/watermelon_2test.csv', delimiter=",")
print(dataset)

Attributes=dataset.columns
m,n=np.shape(dataset)
# print(m,n)

dataset=np.matrix(dataset)
attributeSet=[]
for i in range(n):
    curSet=set()
    for j in range(m):
        curSet.add(dataset[j,i])
    attributeSet.append(curSet)

DD=np.arange(0,m,1)
AA=np.ones(n)
AA=list(AA)
AA[0]=AA[n-1]=-1
EPS=1

import random
import copy
def treeGenerate(D,A,title):
    node=Node(title)
    if isSameY(D):#p74 condition(1),samples are in the same cluster
        node.v=dataset[D[0],
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值