R语言与网站分析 第7章分类指…

本文介绍了R语言在分类分析中的应用,包括C4.5、CART算法、ID3以及随机森林等。讨论了决策树的分裂依据,如信息增益、Gini系数,以及剪枝策略。还涵盖了贝叶斯分类器,如朴素贝叶斯算法,并提到了支持向量机和神经网络。此外,文章还探讨了模型性能评估的指标,如混淆矩阵、ROC曲线和AUC。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

7章分类指标建模:分类分析
       决策树分裂    
R语言与网站分析 <wbr>第7章分类指标建模:分类分析


信息增益:信息熵;信息增益
gain(X)=info(S)-info1(S)=熵-条件熵
CART算法:二分支,Gini系数  
C4.5:多分支,连续/离散变量,信息增益比率(info gain ratio)
    C4.5如何停止分裂:剩余样本数小于某个给定阈值Minimun_Support,则返回一个叶节点,停止分裂。这是前剪枝(preprune)的实施方式。
    后剪枝(postprune):置信度和减少-误差两种算法。
        (1)置信度(俗称:可信度)(取值为0-1,典型值为0.75)。设置最小置信度阈值min_confidence,
然后从底部(接近底层,叶节点)依次比较,小于的节点剪枝。可见min_confidence设置得越大(接近1,反之接近0),剪枝强度越大,树越小。
        (2)减少-误差剪枝:通过测试集数据,计算每个节点的误差。先计算待剪子树的父决策节点的误差,然后计算待剪字数内所有叶节点的加权误差之和,
然后比较,加权误差之和大于父决策节点的误差,剪枝,否则不能剪除。实际操作:把训练集数据折成N(默认为3)份,取1份作为计算误差的训练集数据,其他用于建立决策树模型。
ID3:多分支,不支持连续变量,信息增益(info Gain)
建立自定义函数来划分训练集和测试集:train.data.persent是训练集占data的比例,默认为0.7(一般划分比例为1:1或7:3)
apart.data<-function(data,train.data.persent=0.7){
      train.index<-sample(c(1:nrow(data)),round(nrow(data)*train.data.persent))
      data.train<-data[train.index,]
      data.train<-data[-c(train.index),]
      result<-list(train=data.train,test=data.test)
      result
}
p.data<-apart.data(data)
data.train<-p.data$train
data.test<-p.data$test
在R语言中实现C4.5算法: RWeka包中的J48函数调用weka的C4.5算法:J48(formula,data,subset,na.action,control=Weka_control()):
                      R语言与网站分析 <wbr>第7章分类指标建模:分类分析


注意:目标变量只能是分类型,必须是factor因子类型
                     
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值