决策树 cart

最新推荐文章于 2021-03-25 09:01:16 发布

原创最新推荐文章于 2021-03-25 09:01:16 发布 · 267 阅读

0 ·

CC 4.0 BY-SA版权

本文深入探讨了CART算法的核心——基尼系数，并详细解释了如何通过计算基尼指数来选择最佳划分特征。通过具体示例代码，展示了算法的实现过程。

区别在于cart采用基尼系数。

def CART_chooseBestFeatureToSplit(dataset):

    numFeatures = len(dataset[0]) - 1
    bestGini = 999999.0
    bestFeature = -1
    for i in range(numFeatures):
        featList = [example[i] for example in dataset]
        uniqueVals = set(featList)
        gini = 0.0
        for value in uniqueVals:
            subdataset=splitdataset(dataset,i,value)
            p=len(subdataset)/float(len(dataset))
            subp = len(splitdataset(subdataset, -1, '0')) / float(len(subdataset))
        gini += p * (1.0 - pow(subp, 2) - pow(1 - subp, 2))
        print(u"CART中第%d个特征的基尼值为：%.3f"%(i,gini))
        if (gini < bestGini):
            bestGini = gini
            bestFeature = i
    return bestFeature