sklearn专题一:决策树

本文介绍了sklearn中的决策树算法,包括决策树的工作原理、sklearn中的决策树类,如DecisionTreeClassifier和DecisionTreeRegressor,以及它们的重要参数、属性和接口。文章详细讨论了分类树的不纯度指标、剪枝策略、目标权重参数,并通过实例展示了决策树在红酒数据集和泰坦尼克号幸存者预测中的应用。最后,概述了决策树的优缺点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

决策树

1 概述

1.1 决策树是如何工作的

1.2 sklearn中的决策树

2  DecisionTreeClassifier与红酒数据集

2.1 重要参数

2.1.2 random_state & splitter

2.1.3 剪枝参数

2.1.4 目标权重参数

2.2 重要属性和接口

3. DecisionTreeRegressor

3.1重要参数,属性及接口

3.2 实例:一维回归的图像绘制 

4 实例:泰坦尼克号幸存者的预测

5.决策树的优缺点


决策树

1 概述

1.1 决策树是如何工作的

决策树(Decision     Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法容易理解,适用各种数据,在解决各  种问题时都有良好表现,尤其是以树模型为核心的各种集成算法,在各个行业和领域都有广泛的应用。

我们来简单了解一下决策树是如何工作的。决策树算法的本质是一种图结构,我们只需要问一系列问题就可以对数  据进行分类了。比如说,来看看下面这组数据集,这是一系列已知物种以及所属类别的数据:

我们现在的目标是,将动物们分为哺乳类和非哺乳类。那根据已经收集到的数据,决策树算法为我们算出了下面的  这棵决策树:

 假如我们现在发现了一种新物种Python,它是冷血动物,体表带鳞片,并且不是胎生,我们就可以通过这棵决策  树来判断它的所属类别。

 

可以看出,在这个决策过程中,我们一直在对记录的特征进行提问。最初的问题所在的地方叫做根节点,在得到结  论前的每一个问题都是中间节点,而得到的每一个结论(动物的类别)都叫做叶子节点

关键概念:节点

根节点:没有进边,有出边。包含最初的,针对特征的提问。

中间节点:既有进边也有出边,进边只有一条,出边可以有很多条。都是针对特征的提问。 叶子节点:有进边,没有出边,每个叶子节点都是一个类别标签

*子节点和父节点:在两个相连的节点中,更接近根节点的是父节点,另一个是子节点。

决策树算法的核心是要解决两个问题:

  1. 如何从数据表中找出最佳节点和最佳分枝?
  2. 如何让决策树停止生长,防止过拟合?

几乎所有决策树有关的模型调整方法,都围绕这两个问题展开。这两个问题背后的原理十分复杂,我们会在讲解模  型参数和属性的时候为大家简单解释涉及到的部分。在这门课中,我会尽量避免让大家太过深入到决策树复杂的原  理和数学公式中(尽管决策树的原理相比其他高级的算法来说是非常简单了),这门课会专注于实践和应用。如果  大家希望理解更深入的细节,建议大家在听这门课之前还是先去阅读和学习一下决策树的原理。

1.2 sklearn中的决策树

模块sklearn.tree

sklearn中决策树的类都在”tree“这个模块之下。这个模块总共包含五个类:

tree.DecisionTreeClassifier

分类树

tree.DecisionTreeRegressor

回归树

tree.export_graphviz

将生成的决策树导出为DOT格式,画图专用

tree.ExtraTreeClassifier

高随机版本的分类树

tree.ExtraTreeRegressor

高随机版本的回归树

我们会主要讲解分类树和回归树,并用图像呈现给大家。

sklearn的基本建模流程

在那之前,我们先来了解一下sklearn建模的基本流程。

 

在这个流程下,分类树对应的代码是:

from sklearn import tree #导入需要的模块
clf = tree.DecisionTreeClassifier()     #实例化
clf = clf.fit(X_train,y_train) #用训练集数据训练模型
result = clf.score(X_test,y_test) #导入测试集,从接口中调用需要的信息

DecisionTreeClassifier与红酒数据集

class sklearn.tree.DecisionTreeClassifier ( criterion=’gini’ , splitter=’best’ , max_depth=None ,
min_samples_split=2 , min_samples_leaf=1 , min_weight_fraction_leaf=0.0 , max_features=None ,
random_state=None , max_leaf_nodes=None , min_impurity_decrease=0.0 , min_impurity_split=None, class_weight=None , presort=False )

2.1 重要参数

criterion

为了要将表格转化为一棵树,决策树需要找出最佳节点和最佳的分枝方法,对分类树来说,衡量这个最佳的指标   叫做不纯度。通常来说,不纯度越低,决策树对训练集的拟合越好。现在使用的决策树算法在分枝方法上的核心   大多是围绕在对某个不纯度相关指标的最优化上。

不纯度基于节点来计算,树中的每个节点都会有一个不纯度,并且子节点的不纯度一定是低于父节点的,也就是  说,在同一棵决策树上,叶子节点的不纯度一定是最低的。

Criterion这个参数正是用来决定不纯度的计算方法的。sklearn提供了两种选择: 1)输入”entropy“,使用信息熵Entropy

  1. 输入”gini“,使用基尼系数Gini Impurity
  2. 输入”gini“,使用基尼系数Gini Impurity

其中t代表给定的节点,i代表标签的任意分类,代表标签分类i在节点t上所占的比例。注意,当使用信息熵时,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值