4.3 试编程实现基于信息熵进行划分选择的决策树算法,并为表4.3中数据生成一棵决策树。
理论知识:笔记(四)机器学习(周志华)第4章 决策树
Homework4.3-ID3Model.py
#!/usr/bin/python
# -*- coding: utf-8 -*-
# @Time : 2019/8/20 9:00
# @Author : Cabbage
# @project : decisionTree
# @FileName: Homework4.3-ID3Model.py
# @Blog :https://blog.youkuaiyun.com/lzbmc
from numpy import *
import pandas as pd
from math import log
import operator
import pickle # python序列化对象,这里序列化保存树结构的字典对象
# 计算数据集的香农熵
def calcShannonEnt(dataSet):
numEntries = len(dataSet) # 分母:训练数据的数量
labelCounts = {} # 分子:数据集或者每个子集中,每个类别(好瓜、坏瓜)出现的次数
# 给所有可能分类创建字典
for featVec in dataSet:
currentLabel = featVec[-1] # 取最后一列数据
if currentLabel not in labelCounts.keys(): # 第一次出现时先给它初始值0
labelCounts[currentLabel] = 0
labelCounts[currentLabel] += 1
shannonEnt = 0.0
# 以2为底数计算香农熵
for key in labelCounts:
prob = float(labelCounts[key]) / numEntries
shannonEnt -= prob * log(prob, 2) # Ent=-(∑pk㏒pk) --> Ent减每一个结果 P75(4.1)
return shannonEnt
# 对离散变量划分数据集,取出该特征取值为value的所有样本
def splitDataSet(dataSet, axis, value):
retDataSet = []
for featVec in dataSet:
if featVec[axis] == value: # 判断此列axis的值是否为value
reducedFeatVec = featVec[:axis] # 此行数据的前axis列
reducedFeatVec.extend(featVec[axis + 1:]) # axis列之后的数据
retDataSet.append(reducedFeatVec) # 注意extend与append的区别。
# 三句合写为一句
# retDataSet.append(featVec[:axis] + featVec[axis + 1:])
# a、b为例,extend,append是在a原地址操作,改变的是a。
# extend:去掉列表b最外层的[],然后追加到a。append:将整个列表b作为一个值来添加。
# +:新的变量c来实现相加,相加的过程和extend一样,但不是在被加的对象的地址上操作的。
return retDataSet
# 对连续变量划分数据集——二分法。不大于或者大于value的样本分别保存,进行划分
# direction规定划分的方向,决定是划分出小于value的数据样本还是大于value的数据样本集
def splitContinuousDataSet(dataSet, axis, value, direction):
retDataSet = []
for featVec in dataSet:
if direction == 0:
if featVec[axis] > value:
retDataSet.append(featVec) # 连续型特征和特征值都不删除
else:
if featVec[axis] <= value:
retDataSet.append(featVec)
return retDataSet
# 选择最好的数据集划分方式
def chooseBestFeatureToSplit(dataSet, labels):
numFeatures = len(dataSet[0]) - 1 # 特征的数目,最后一列是类别
baseEntropy = calcShannonEnt(dataSet) # 经验熵 Ent(D)
bestInfoGain = 0.0 # 最优的信息增益值。
bestFeature = -1 # 最优的Feature编号
bestSplitDict = {} # key:value = {连续型特征标签:最优划分点}
# bestSplitValue = None # 连续型特征的最优划分点
for i in range(numFeatures):
featList = [example[i] for example in dataSet] # 获取第i列(第i特征)下的所有数据,存到列表中
# 对连续型特征进行处理
# 为每一个连续型特征寻找最优划分点,并计算在最优划分点时的信息增益
if type(featList[0]).__name__ == 'float' or type(featList[0]).__name__ == 'int': # 判断当前属性是否为连续型.等价于type(featList[0]) == float:
# 产生n-1个候选划分点
sortfeatList = sorted(featList) # 二分法:先对属性值从小到大进行排序
splitList = []
for j in range(len(sortfeatList) - 1): # 每一个划分点是相邻属性值的平均
splitList.append((sortfeatList[j] + sortfeatList[j + 1]) / 2.0)
bestSplitEntropy = 10000
slen = len(splitList) # 划分点个数
# 求用第j个候选划分点划分时,得到的信息熵,并记录最佳划分点
for j in range(slen):