ID3算法--Python

最新推荐文章于 2023-07-17 16:41:01 发布

原创最新推荐文章于 2023-07-17 16:41:01 发布 · 749 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#ID3

启发式算法专栏收录该内容

12 篇文章

订阅专栏

本文介绍了一种用于构造决策树的贪心算法——ID3算法，并详细展示了其核心思想及实现步骤。通过信息熵下降速度来选择划分属性，递归地构建决策树直至完成对训练样本的分类。

查看完整代码http://www.daimapi.com/tree1_1/

代码3算法是一种贪心算法，用来构造决策树。ID3算法起源于概念学习系统（CLS），以信息熵的下降速度为选取测试属性的标准，即在每个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准，然后继续这个过程，直到生成的决策树能完美分类训练样例。

import math
import operator
from math import log
import operater

def calcShannonEnt(dataset):
    numEntries = len(dataset)
    # 为所有的分类类目创建字典
    labelCounts = {}
    for featVec in dataset:
        currentLabel = featVec[-1] #取得最后一列数据
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] +=1
    #计算香农熵
    shannonEnt = 0.0
    for key in labelCounts:
        prob = float(labelCounts[key])/numEntries
        shannonEnt -= prob*math.log(prob, 2)
    return shannonEnt

# 构造函数createDataSet
def CreateDataSet():
    dataset = [[1, 1, 'yes' ],
               [1, 1, 'yes' ],
               [1, 0, 'no'],
               [0, 1, 'no'],
               [0, 1, 'no']]
    labels = ['no surfacing', 'flippers']
    return dataset, labels