决策树Python实现

最新推荐文章于 2024-07-03 12:07:56 发布

原创最新推荐文章于 2024-07-03 12:07:56 发布 · 699 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #可测试

机器学习个人笔记专栏收录该内容

7 篇文章

订阅专栏

决策树的实现主要是通过进行特征选择来进行决策树构建，而特征选择取决于信息增益或者信息增益比
信息增益由熵和条件熵确定熵是表示随机变量不确定时的度量
决策树的实现比较多的是利用信息增益来实现的，在划分数据集之前之后信息发生的变化称为信息增益，通过特征值划分数据集获得的信息增益，获得信息增益最高的特征就是最好的选择。
得到熵之后，我们就可以按照获取最大信息增益的方法划分数据集

计算香农熵的函数
def calcShannonEnt(dataSet):
    numEntries = len(dataSet) # 数据的长度
    labelCounts = {}
    for featVec in dataSet:
        currentLabel = featVec[-1] #获取当前的标签
        if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    shannonEnt = 0.0
    for key in labelCounts:
        prob = float(labelCounts[key])/numEntries  #计算当前类别的在所以数据里出现的频率
        shannonEnt -= prob * log(prob,2) #  计算熵
    return shannonEnt

划分数据集函数参数分别是待划分的数据集、划分数据集的特征、特征的返回值

def splitDataSet(dataSet, axis, value):
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]     #选择划分数据集的特征进行划分
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet

选择最好的特征划分方式

def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1 # 获取数据集长度
    baseEntropy = calcShannonEnt(dataSet) # 计算数据集的熵
    bestInfoGain = 0.0; bestFeature = -1
    for i in range(numFeatures):
        featList = [example[i] for example in dataSet] # 创建唯一的分类标签列表
        uniqueVals = set(featList)
        newEntropy = 0.0
        for value in uniqueVals:   #计算每种划分方式的信息熵
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet)/float(len(dataSet))
            newEntropy += prob * calcShannonEnt(subDataSet)
        infoGain = baseEntropy - newEntropy
        if (infoGain > bestInfoGain):   # 计算最好的信息增益
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature

采用多数表决的方法决定该叶子节点的分类

def majorityCnt(classList):
    classCount={}
    for vote in classList:
        if vote not in classCount.keys(): classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

创建树函数

def createTree(dataSet,labels):
    classList = [example[-1] for example in dataSet]
    if classList.count(classList[0]) == len(classList):  #类别相同停止划分
        return classList[0]
    if len(dataSet[0]) == 1:   # 遍历 完 所 有 特 征 时 返 回 出 现 次 数 最 多 的
        return majorityCnt(classList)
    bestFeat = chooseBestFeatureToSplit(dataSet)
    bestFeatLabel = labels[bestFeat]
    myTree = {bestFeatLabel:{}}
    del(labels[bestFeat])
    featValues = [example[bestFeat] for example in dataSet]
    uniqueVals = set(featValues)
    for value in uniqueVals:
        subLabels = labels[:]
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),subLabels)
    return myTree

对于创建好的树，可以通过matplotlib画出来也可以通过pydotplus，graphviz转化为可视化pdf createTree.export_graphviz(clf, out_file=dot_data) graph = pydotplus.graph_from_dot_data(dot_data.getvalue()) graph.write_pdf("xxx.pdf")#写入pdf

决策树非常好地匹配了实验数据，然而这些匹配选项可能太多了。我们将这种问题称之为过度匹配。为了减少过度匹配问题，我们可以裁剪决策树，去掉一些不必要的叶子节点。如果叶子节点只能增加少许信息，则可以删除该节点，将它并人到其他叶子节点中本次使用的算法是ID3 算法，但是该算法并不完美，如果存在太多的特征划分， ID3 算法仍然会面临其他问题

决策树分类器就像带有终止块的流程图，终止块表示分类结果。开始处理数据集时，我们首先需要测量集合中数据的不一致性，也就是熵，然后寻找最优方案划分数据集，直到数据集中的所有数据属于同一分类

通过裁剪决策树，合并相邻的无法产生大量信息增益
的叶节点，消除过度匹配问题
决策树有多种生成方式，第一种就是上面使用的iD3，还有就是使用信息增益比的 C4.5生成算法以及使用基尼指数的CART 分类回归树生成，值得一提的是，在使用CART 生成决策树的时候，基尼指数和信息增益的选取恰恰相反。选取基尼指数最小的最优特征