CART决策树Python代码详细实现

Python实现CART决策树：基于基尼指数的数据集划分

最新推荐文章于 2024-11-14 15:58:35 发布

原创

最新推荐文章于 2024-11-14 15:58:35 发布 · 666 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #分类算法 #决策树 #数据挖掘

CART决策树Python代码实现

CART决策树：使用”基尼指数“来选择划分特征。数据集的纯度可用基尼值(Gini)来度量。Gini(D)反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率，Gini值越小，则数据集的纯度越高。

特征的“基尼指数”(Gini index)定义如下，选择使得划分后基尼指数最小的特征作为最优划分特征。

计算每个特征的基尼指数前，先计算下该节点的基尼值，若基尼值为0，则表示该节点下的数据集已完全分类。

接下来让我们大致复习一下Gini指数的计算：

根节点包含D中所有数据，数据总数为17，可用特征{色泽，根蒂，敲声，纹理，脐部，触感}：

★特征“色泽”：

1. 青绿：{1，4，6，10，13，17}，数据总计：6，正例p1= 3/6，反例p2= 3/6
Gin(青绿)=1−(3/6×3/6+3/6×3/6)=0.5

2. 乌黑：{2，3，7，8，9，15}，数据总计：6，正例p1= 4/6，反例p2= 2/6
Gini(乌黑)=1−(4/6×4/6+2/6×2/6)=0.444

3. 浅白：{5，11，12，14，16}，数据总计：5，正例p1= 1/5，反例p2= 4/5
Gini(浅白)=1−(1/5×1/5+4/5×4/5)=0.32

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

一直有梦想的兔子

关注关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

机器学习算法之CART分类树算法（python实现）

weixin_56603442的博客

05-25

1697

CART分类树的主要思想是通过递归地将数据集划分为更小的子集，使得每个子集内的样本属于同一类别。2.属性选择：计算每个属性的基尼指数，选择基尼指数最小的属性作为当前节点的划分标准。本次代码中的数据集我选用的是银行里的是否拖欠贷款的数据，每条数据的属性均包含是否有房、是否已婚、年薪是否超过80K、是否拖欠贷款，其中属性值为1表示是，属性值为0表示否。3.决策树构建：根据选择的属性将数据集划分为多个子集，每个子集对应一个分支。4.剪枝：若构建好的决策树分支过多，则可能需要对其进行剪枝操作，以减少过拟合的风险。

CART决策树算法的Python实现（注释详细）

Polaris的博客

10-27

1万+

一、CART决策树算法简介 CART（Classification And Regression Trees 分类回归树）算法是一种树构建算法，既可以用于分类任务，又可以用于回归。相比于 ID3 和 C4.5 只能用于离散型数据且只能用于分类任务，CART 算法的适用面要广得多，既可用于离散型数据，又可以处理连续型数据，并且分类和回归任务都能处理。本文仅讨论基本的CART分类决策树构建，不讨论回归树和剪枝等问题。首先，我们要明确以下几点： 1. CART算法是二分类常用的方法，由CART算法生成的决策树

参与评论您还未登录，请先登录后发表或查看评论

使用Python构建CART决策树回归模型

m0_73500130的博客

05-29

598

决策树回归模型是一种基于树结构的回归模型，用于预测连续数值的输出。与分类决策树不同，回归决策树的叶子节点包含的是一个具体的数值预测，而不是类别标签。

CART决策树算法Python实现（人工智能导论作业）

m0_63323795的博客

11-13

2728

决策树是以树的结构将决策或者分类过程展现出来，其目的是根据若干输入变量的值构造出一个相适应的模型，来预测输出变量的值。预测变量为离散型时，为分类树；连续型时，为回归树。算法简介ID3使用信息增益作为分类标准，处理离散数据，仅适用于分类树。CART使用基尼系数作为分类标准，离散、连续数据均可，适用于分类树，回归树。C4.5使用信息增益和增益率相结合作为分类标准，离散、连续数据均可，但效率较低，适用于分类树C5.0是C4.5用于大数据集的拓展，效率较高。

决策树算法python源代码_CART决策树(Decision Tree)的Python源码实现

weixin_39805732的博客

11-29

723

1. 前言本文主要讲解CART决策树代码实现的细节，对于想了解决策树原理的同学建议可以去观看台大林轩田教授的视频，他对于决策树以及接下来要利用决策树生成的随机森林算法都讲解的非常好，下面附上链接。https://www.bilibili.com/video/av6991226/#page=34建议阅读顺序：先阅读源代码，再来看源码关键方法的讲解，源码地址RRdmlearning/Decision-...

［机器学习］决策树（CART）源码（python）

weixin_40479663的博客

12-03

1750

详细的决策树（C4.5, ID3, CART）介绍和公式在前面的博文：决策树详解本文主要是对CART决策树的实现细节做代码展示,代码有比较详细的注解. 数据集有四个特征,最后一个为label–(SepalLength, SepalWidth, PetalLength, PetalWidth, Name),总共150条样本,每个类别150条,Name为(setosa, versicolor, v...

决策树基本 CART Python手写实现

最新发布

bo_hai的专栏

11-14

1012

【代码】决策树基本 CART Python手写实现。

CART算法训练决策树的简单实现_python_代码_下载

06-07

接下来，创建CART决策树模型。如果是分类问题，我们使用`DecisionTreeClassifier`；如果是回归问题，使用`DecisionTreeRegressor`： ```python if is_classification_task: model = DecisionTreeClassifier() else...

Python实现CART决策树

ixobgenw的博客

11-16

9501

CART决策树前言一、CART决策树算法二、Python代码实现1.计算结点GINI值2.分离数据集3.选择最好的特征4.生成决策树4.测试决策树6.决策树可视化7.主程序部分CART决策分类树所有代码总结前言 CART算法的全称是Classification And Regression Tree，采用的是Gini指数（选Gini指数最小的特征s）作为分裂标准，是一种实用的分类算法。一、CART决策树算法主要思路是对一个数据集选择几个属性作为特征，对于每个特征提出一个划分条件，根..

$CART决策树$ - python代码实现 - 多功能 - 全代码 - 不调库 - Graphviz可视化展示

qq_73386808的博客

09-28

1968

CART决策树-全代码-python-无调库

CART决策树python实现

qq_42308441的博客

12-14

1059

CART决策树代码实现调包侠： from sklearn import tree import pydotplus def cart_skl_test(): df = pd.read_csv("../dataSet/liquefaction_data_MLE.csv") x = df[['CSR', 'Vs']] y = df['target'] clf = tree.DecisionTreeClassifier() clf.fit(x, y) dot_

Python实现ID3(信息增益)

weixin_30399821的博客

02-03

393

Python实现ID3(信息增益) 运行环境 Pyhton3 treePlotter模块(画图所需，不画图可不必) matplotlib(如果使用上面的模块必须) 计算过程 st=>start: 开始 e=>end op1=>operation: 读入数据 op2=>operation: 格式化数据 cond=>condition: 是否建树完成 su=>s...

决策树之CART分类树

weixin_56559434的博客

11-25

5523

CART分类树的算法理解和代码实现，真亲自手算带你理解算法。

Python编程实现基于基尼指数进行划分选择的决策树（CART决策树）算法

仰起脸笑得像满月

09-06

1万+

本文是周志华老师的《机器学习》一书中第4章 决策树 的课后题第4.4题的实现。原题是：试编程实现基于基尼指数进行划分选择的决策树算法，为表4.2中的数据生成预剪枝、后剪枝决策树，并与未剪枝决策树进行比较。本文主要是不进行剪枝的CART决策树的实现，预剪枝与后剪枝的CART决策树实现分别可见Python编程实现预剪枝的CART决策树和Python编程实现后剪枝的CART决策树。如果发现文...

【机器学习】Java 代码实现 CART 决策树算法

热门推荐

知不足而奋进，望远山而前行

01-16

2万+

CART(classification and regression tree)树：又称为分类回归树，从名字可以发现，CART树既可用于分类，也可以用于回归。当数据集的因变量是离散值时，可以采用CART分类树进行拟合，用叶节点概率最大的类别作为该节点的预测类别。当数据集的因变量是连续值时，可以采用CART回归树进行拟合，用叶节点的均值作为该节点预测值。：一个枚举类，用来指示特征是数值型的还是字符型的。：CART 决策树算法对象。：训练数据集存放对象。

【机器学习】02 决策树CART代码

weixin_43996614的博客

04-29

1541

CART1.引入库2.读入数据3.找到样本最多的类4.计算基尼值5.划分数据集6.找出基尼指数最小的值7.创建树8.运行结果 1.引入库 import math import operator 2.读入数据 def createDataset(): dataSet = [ ['青绿', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', '好瓜'], ['乌黑', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', '好瓜'],

python cart算法的简单实现

wshzd的博客

08-17

2465

下面是python cart算法的简单实现，可以直接复制下面代码进行运行，即可查看模型的拟合曲线 import matplotlib.pyplot as plt import numpy as np from sklearn.tree import DecisionTreeRegressor def plotfigure(X,X_test,y,yp): plt.figure()

【机器学习】随机森林（基于CART分类树）—— python3 实现方案

zhenghaitian的博客

11-05

2993

以CART分类树为基学习器的随机森林. 实现了随机森林的主要思想,如选取k个特征,使用包外数据验证准确率,投票法确定预测类别等. 这次使用sklearn的鸢尾花数据集,得到非常不错的模型.供参考 import numpy as np from collections import Counter from sklearn import datasets class RandomFore...

机器学习之决策树详解及Python实现

m0_74739796的博客

04-30

1598

决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别（在分类中）或一个实值（在回归中）。从根到叶节点的每条路径代表了一个分类规则。决策树学习的目的是为了产生一颗泛化能力强，即处理未见示例能力强的决策树。

cart决策树python代码

05-26

下面是一个简单的 CART 决策树的 Python 实现： ```python import numpy as np class CARTDecisionTree: def __init__(self, max_depth=10, min_samples_split=2): self.max_depth = max_depth self.min_samples_split = min_samples_split def fit(self, X, y): self.tree = self.build_tree(X, y) def build_tree(self, X, y, depth=0): n_samples, n_features = X.shape n_labels = len(np.unique(y)) # 检查是否应该停止分裂 if (depth >= self.max_depth or n_labels == 1 or n_samples < self.min_samples_split): return np.argmax(np.bincount(y)) # 寻找最佳分割特征和阈值 best_feature, best_threshold = self.get_best_split(X, y, n_samples, n_features) # 分割样本集并递归构建子树 left_indices = X[:, best_feature] < best_threshold right_indices = X[:, best_feature] >= best_threshold left_subtree = self.build_tree(X[left_indices], y[left_indices], depth+1) right_subtree = self.build_tree(X[right_indices], y[right_indices], depth+1) return {'feature': best_feature, 'threshold': best_threshold, 'left': left_subtree, 'right': right_subtree} def get_best_split(self, X, y, n_samples, n_features): best_gini = float('inf') best_feature, best_threshold = None, None # 遍历所有特征和阈值，找到最佳分割 for feature in range(n_features): thresholds = np.unique(X[:, feature]) for threshold in thresholds: left_indices = X[:, feature] < threshold right_indices = X[:, feature] >= threshold if (len(left_indices) == 0 or len(right_indices) == 0): continue gini = self.gini_index(y, left_indices, right_indices) if gini < best_gini: best_gini = gini best_feature = feature best_threshold = threshold return best_feature, best_threshold def gini_index(self, y, left_indices, right_indices): n_left, n_right = len(left_indices), len(right_indices) gini_left, gini_right = 0, 0 if n_left > 0: labels_left, counts_left = np.unique(y[left_indices], return_counts=True) gini_left = 1 - np.sum((counts_left / n_left) ** 2) if n_right > 0: labels_right, counts_right = np.unique(y[right_indices], return_counts=True) gini_right = 1 - np.sum((counts_right / n_right) ** 2) gini = (n_left * gini_left + n_right * gini_right) / (n_left + n_right) return gini def predict(self, X): return np.array([self.predict_sample(x, self.tree) for x in X]) def predict_sample(self, x, tree): if isinstance(tree, int): return tree feature, threshold = tree['feature'], tree['threshold'] if x[feature] < threshold: return self.predict_sample(x, tree['left']) else: return self.predict_sample(x, tree['right']) ``` 需要注意的是，上述代码实现的 CART 决策树仅支持分类问题。如果要用于回归问题，需要对 `gini_index` 方法进行修改，使用其他的评估指标（如 MSE）。