机器学习实战-决策树

最新推荐文章于 2021-12-04 15:39:09 发布

原创

最新推荐文章于 2021-12-04 15:39:09 发布 · 468 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #决策树 #人工智能

本文介绍了决策树的基本概念，并通过Python代码实现了决策树算法，包括信息增益计算、数据集处理、决策树构建和使用Matplotlib绘制决策树。实验结果显示正确率为60%，表明了决策树在分类问题中的应用。

一、决策树是什么？

决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。

二、代码实现

1.信息增益

代码实现

#计算信息增益
def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1
    baseEntropy = calcShannonEnt1(dataSet)
    bestInfoGain = 0.0                       
    bestFeature = -1                         
    for i in range(numFeatures):
        featList = [example[i] for example in dataSet]
        uniqueVals = set(featList)
        newEntropy = 0.0
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet,i,value)
            prob = len(subDataSet)/float(len(dataSet))
            newEntropy += prob * calcShannonEnt(subDataSet)   #计算香农熵
        infoGain = baseEntropy - newEntropy        #计算信息增益
        if (infoGain >bestInfoGain):
            bestInfoGain = infoGain      
            bestFeature = i              
    return bestFeature