决策树

本文深入探讨了决策树的学习算法,包括特征选择、信息增益等关键概念,以及如何构建决策树。同时,介绍了随机森林如何通过组合多个决策树解决过拟合问题,最后提到了决策树在sklearn中的实现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 决策树的构造

决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程。这一过程对应着对特征空间的划分,也对应着决策树的构建。

  • 开始:构建根节点,将所有训练数据都放在根节点,选择一个最优特征,按着这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下最好的分类。

  • 如果这些子集已经能够被基本正确分类,那么构建叶节点,并将这些子集分到所对应的叶节点去。

  • 如果还有子集不能够被正确的分类,那么就对这些子集选择新的最优特征,继续对其进行分割,构建相应的节点,如果递归进行,直至所有训练数据子集被基本正确的分类,或者没有合适的特征为止。

  • 每个子集都被分到叶节点上,即都有了明确的类,这样就生成了一颗决策树。

决策树的特点:

优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。
缺点:可能会产生过度匹配的问题
适用数据类型:数值型和标称型

2. 特征选择

特征选择就是决定用哪个特征来划分特征空间

如何选择最优特征

获得信息增益最高的特征就是最优特征

信息增益

在划分数据集前后信息发生的变化称为信息增益,即
划分数据集后各个数据集的熵的算数平均减去划分前数据集合的熵

集合信息的度量方式称为香农熵,或者简称熵。**

熵定义为信息的期望值,如果待分类的事物可能划分在多个类之中,则符号xi 的信息定义为:
lll(xi) = -log2p(xi)
其中,p(xi)是属于i分类的概率

为了计算熵,我们需要计算所有类别所有可能值所包含的信息期望值,通过下式得到:
H=−Σi=1np(xi)log2p(xi)H = -\Sigma_{i=1}^n p(x_i)log_2p(x_i)H=Σi=1np(xi)log2p(xi)
其中,n为分类数目

如:一个集合里红球8个,白球2个,那么
n = 2
p(x) = 0.8
p(x) = 0.2
这个集合的熵就为:H=−(0.8∗log20.8 + 0.2∗log20.2)H = -(0.8 *log_20.8\ +\ 0.2*log_20.2 )H=(0.8log20.8 + 0.2log20.2)

3. 随机森林

当特征过多的时候生成的决策树很容易出现过拟合现象,可以采用随机森林来解决这个问题。
步骤:

  • 随机选取n组部分特征,然后用每个组的特征来构建n个决策树,这样就生成了一个随机森林
  • 利用要预测的数据的特征,分别让这n个决策树产生n个结果
  • 将出现次数最多的结果作为最终预测结果

4. 决策树中的常见超参数

  • max_depth:树中的最大层级数量即最大深度。当决策树的最大深度为k时,它最多可以拥有2k片叶子。
  • min_samples_leaf:每片叶子的最小样本数。这个数字可以被指定为一个整数,也可以是一个浮点数。如果它是整数,它将表示这片叶子上的最小样本数。如果它是个浮点数,它将被视作每片叶子上的最小样本比例。比如,0.1 或 10% 表示如果一片叶子上的样本数量小于该节点中样本数量的 10%,这种分裂将不被允许。
  • max_features:寻找最佳拆分方法时要考虑的最大特征数量。当遇到特征数量过于庞大,而无法建立决策树的时,这样就可以限制每个分裂中查找的特征数。

5. sklearn中的决策树

from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
import pandas as pd
import numpy as np

# 读取数据
data = pd.read_csv("data.csv")
# 分离特征和标签
X = np.array(data[['x1', 'x2']])
y = np.array(data['y'])

# 创建决策树分类器
model = DecisionTreeClassifier()

# 训练模型
model.fit(X,y)

# 评估模型在训练集上的准确度
y_pred = model.predict(X)
acc = accuracy_score(y, y_pred)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值