决策树的建立步骤(西瓜书例题)

本文详细介绍了决策树的构建过程,包括引入相关库、数据处理、确定类别标记、计算信息熵、创建子数据集、衡量信息增益以及选择最佳属性。掌握这些步骤将有助于深入理解决策树的工作原理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

树的建立步骤:引入包、数据的获取与处理、获取名称与类别标记——>选择样本最多的类作为类别标记——>重点来了,计算信息熵——>子数据集构建——>计算信息增益——>选择最优属性——>建立决策树。这些步骤搞懂了,基本就理解了决策树的原理。

import pandas as pd
import numpy as np
from collections import Counter
from math import log2


# In[56]:


#数据获取与处理
def getData(file_Path):
    file_path = r'F:date427\decisionTree\xigua.xls'
    data = pd.read_excel( file_path)
    return data

def dataDeal(data):
    dataList = np.array(data).tolist()    #将矩阵转化成列表
    dataSet = [element[1:] for element in dataList]
    return dataSet


# In[57]:


#获取属性名称
def getLabels(data):
    labels = list(data.columns)[1:-1]
    return labels


# In[58]:


#获取类别标记
def targetClass(dataSet):
    classification = set([element[-1] for element in dataSet])
    return classification


# In[59]:


#将分支结点标记为叶结点,选择样本数最多的类作为类标记
def majorityRule(dataSet):
    mostKind = Counter([element[-1] for element in dataSet]).most_common(1)
    majorityKind = most
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值