R语言之决策树CART、C4.5算法

最新推荐文章于 2025-09-29 20:04:34 发布

原创

最新推荐文章于 2025-09-29 20:04:34 发布 · 1.7w 阅读

101 ·

CC 4.0 BY-SA版权

文章标签：

#rpart #J48 #R语言决策树 #CART算法 #C4-5算法

决策树是以树的结构将决策或者分类过程展现出来，其目的是根据若干输入变量的值构造出一个相适应的模型，来预测输出变量的值。预测变量为离散型时，为分类树；连续型时，为回归树。
常用的决策树算法：

算法	简介	R包及函数
ID3	使用信息增益作为分类标准，处理离散数据，仅适用于分类树。	rpart包 rpart()
CART	使用基尼系数作为分类标准，离散、连续数据均可，适用于分类树，回归树。	rpart包 rpart()
C4.5	使用信息增益和增益率相结合作为分类标准，离散、连续数据均可，但效率较低，适用于分类树	RWeka包 J48()
C5.0	是C4.5用于大数据集的拓展，效率较高	C50包 C5.0()

建模过程：
1）选定一个最佳变量将全部样本分为两类，并且实现两类中的纯度最大化，其分类标准有“信息增益”，“增益率”，“基尼系数”等。具体理论可参考周志华老师的《机器学习》一书。
2）对每一个分类子集重复步骤1）。
3）重复步骤1）、2），直到没有分类方法能将不纯度下降到给定的阈值以下。
4）根据步骤3）得出的模型预测所属类别。
用到的程序包rpart, raprt.plot. RWake, sampling, partykit。建模所用数据为UCI机器学习数据库里的威斯康星州乳腺癌数据集和汽车数据集mtcars。仅以CART和C4.5算法函数的调用为例，C5.0算法的调用可用C50包中的C5.0()函数。

一、CART算法

步骤：
1、数据预处理，建立好训练集和预测集。代码如下：可参见《R语言实战》。

  > loc<-"http://archive.ics.uci.edu/ml/machine-learning-databases/"
> ds<-"breast-cancer-wisconsin/breast-cancer-wisconsin.data"
> url<-paste(loc,ds,sep="")
> data<-read.table(url,sep=",",header=F,na.strings="?")
> names(data)<-c("ID","clumpThickness","sizeUniformity",
+                  "shapeUniformity","maginalAdhesion",
+                  "singleEpithelialCellSize","bareNuclei",
+                  "blandChromatin","normalNucleoli",
+                  "mitosis","class")
> data$class[data$class==2]<-"良性"
> data$class[data$class==4]<-"恶性"
> data<-data[-1]
> set.seed(1234)
> train<-sample(nrow(data),0.7*nrow(data))
> tdata<-data[train,

最低0.47元/天解锁文章

4 条评论

m0_64766303 2023.04.10
up你好，我的数据较多，最终的C4.5图看不清了，有什么别的包推荐绘图吗

qq_46120252 2020.07.24
请问rpart函数的参数formula中，y可选择两列数据吗？像这样： rpart(cbind(Exposure,ClaimNb) ~Area + VehPower + VehAge， learn, method="class", control=rpart.control(xval=10, minbucket=10000, cp=0.0005)) 为什么我把cbind(Exposure,ClaimNb) 换成只有一个ClaimNb反而不行呢？求指教