python实现CART回归树，参考机器学习实战

最新推荐文章于 2024-04-11 15:18:37 发布

Laurel1115

最新推荐文章于 2024-04-11 15:18:37 发布

阅读量786

点赞数 1

分类专栏：数据挖掘/机器学习算法实现

本文链接：https://blog.youkuaiyun.com/Laurel1115/article/details/88118977

版权

数据挖掘/机器学习算法实现专栏收录该内容

3 篇文章

订阅专栏

本文详细介绍了如何使用Python实现CART回归树，从二分化数据集开始，接着阐述如何选择最优特征和切分点，最后讲解了递归构造树的完整过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、二分化数据集

def binSplitDataSet(dataSet, feature, value):
    mat0 = dataSet[nonzero(dataSet[:, feature] > value)[0], :]
    mat1 = dataSet[nonzero(dataSet[:, feature] <= value)[0], :]
    return mat0,mat1

二、进行最优划分（选择最优特征及最优切分点）

def chooseBestSplit(dataSet, leafType=regLeaf, errType=regErr, ops=(1,4)):
    tolS = ops[0]; tolN = ops[1]
    #if all the target variables are the same value: quit and return value
#     print '***',set(dataSet[:,-1].T.A.tolist()[0])
#     print '***',len(dataSet[:,-1].T.A.tolist()[0])
    if len(set(dataSet[:,-1].T.tolist()[0])) == 1: 
        return None, leafType(dataSet)
    m,n = shape(dataSet)
#     print m,n
    #the choice of the best feature is driven by Reduction in RSS error from mean
    S = errType(dataSet)
#     print 'S,',S
    bestS = inf; bestIndex = 0; bestValue = 0
    for featIndex in range(n-1):
#         for splitVal in set(dataSet[:,featIndex]):
        for splitVal in set((dataSet[:,featIndex].T.A.tolist())[0]):
            mat0, mat1 = binSplitDataSet(dataSet, featIndex, splitVal)
            if (shape(mat0)[0] < tolN) or (shape(mat1)[0] < tolN): continue
            newS = errType(mat0) + errType(mat1)
            if newS < bestS: 
                bestIndex = featIndex
                bestValue = splitVal
                bestS = newS
    #if the decrease (S-bestS) is less than a threshold don't do the split
    if (S - bestS) < tolS: 
        return None, leafType(dataSet) #exit cond 2
    mat0, mat1 = binSplitDataSet(dataSet, bestIndex, bestValue)
    if (shape(mat0)[0] < tolN) or (shape(mat1)[0] < tolN):  #exit cond 3
        return None, leafType(dataSet)
    return bestIndex,bestValue#returns the best feature to split on
                              #and the value used for that split

def regLeaf(dataSet):#returns the value used for each leaf
    return mean(dataSet[:,-1])

def regErr(dataSet):
    return var(dataSet[:,-1]) * shape(dataSet)[0]

三、递归构造树

def createTree(dataSet, leafType=regLeaf, errType=regErr, ops=(1,4)):#assume dataSet is NumPy Mat so we can array filtering
    feat, val = chooseBestSplit(dataSet, leafType, errType, ops)#choose the best split
    if feat == None: return val #if the splitting hit a stop condition return val
    retTree = {}
    retTree['spInd'] = feat
    retTree['spVal'] = val
    lSet, rSet = binSplitDataSet(dataSet, feat, val)
    retTree['left'] = createTree(lSet, leafType, errType, ops)
    retTree['right'] = createTree(rSet, leafType, errType, ops)
    return retTree