R语言-决策树算法（C4.5和CART）的实现

最新推荐文章于 2025-01-16 01:00:00 发布

原创

最新推荐文章于 2025-01-16 01:00:00 发布 · 1.2w 阅读

34 ·

CC 4.0 BY-SA版权

文章标签：

#r语言 #数据 #算法

本文介绍了如何在R语言中实现C4.5和CART决策树算法。首先，利用sampling包进行数据分层抽样，创建训练集和测试集。接着，使用party包来构建C4.5决策树模型，并应用到iris数据集。模型在测试集上的准确率为0.9333，在训练集上准确率为0.97143。随后，文章转向CART算法的实现，讨论了相关的包和步骤。

决策树算法的实现：

一、C4.5算法的实现

a、需要的包：sampling、party

library(sampling)
library(party)

sampling用于实现数据分层随机抽样，构造训练集和测试集。

party用于实现决策树算法

另外，还可以设置随机数种子，可以获得相同的随机数。方便数据重复检验。

#设置随机数种子，可以获得相同的随机数
set.seed(100)

b、数据准备

我们使用iris数据集作为算法使用的数据集，通过下列各方法可以查看数据集的各种指标。

head(iris)
str(iris)
dim(iris)

然后构造训练集和测试集

sub_train = strata(iris,
                   stratanames = "Species",
                   size = rep(35, 3),
                   method = "srswor")
data_train = iris[sub_train$ID_unit, ]
data_test = iris[-sub_train$ID_unit, ]

抽样方法是分层不放回抽样。

c、训练模型

iris_tree = ctree(Species ~ ., data = data_train)

我们可以通过方法print（）或者plot（）查看模型：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Hz_ZDeveloper

关注关注

2
点赞
踩
34

收藏

觉得还不错? 一键收藏
4
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

R语言决策树实现

Cachel Wood的博客

01-06

1100

文章目录决策树决策树函数优势 决策树 适用于分类型独立变量 决策树函数 ID3：information entropy 信息熵 C4.5：information gain ratio 信息增益比 CART：gini index 基尼系数 Conditional inference decision tree: Chi-square test 条件推断决策树（原理是卡方检验）优势 non-parametric 非参数统计 multicollinearity 多重共线性 small N large P

决策树之剪枝算法手动计算+R语言简单实现——（二）

大数据技术派

01-19

5841

目录 决策树的修剪 决策树规则提取 决策树算法小结 R语言小例子在上一篇我们介绍了，决策树的数据准备与决策树的生长，也用一个小例子手动计算了决策树的生长分支过程。常用的分支准则方法有三种：信息增益、信息增益率、基尼系数。其实，这里问题就来了，决策树是可以不加限制的生长到有可能到很深的吗？当然是不行的，这就是这一节需要介绍的主要内容之一决策树的修剪，当然还会对决策树算法规律稍微总结一下，...

4 条评论您还未登录，请先登录后发表或查看评论

1 条评论

聊无的学习笔记 2021.05.21
楼上正解

Giraffe_c 2017.07.13
第一个不是C4.5算法的代码，那是条件推断树。
- huhu_yzz回复Giraffe_c 2018.08.30
  [reply]qq_34730898[/reply] 我做出来看着也不像C4.5，，白做了一天，好气
- 一圈面包回复Giraffe_c 2017.12.04
  [reply]qq_34730898[/reply] 谢谢你的指正！