R语言学习_决策树

本文介绍了R语言中决策树的学习,包括ID3、C4.5、C5.0、CART算法,以及元模型如Bagging、Boosting、随机森林。详细探讨了各个算法的分裂指标和评价模型的方法,如混淆矩阵、ROC曲线和AUC。通过实例展示了J48和rpart包的使用,并进行了模型验证和ROC曲线分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

分类算法家族
决策树
ID.3、C4.5、C5.0
CART(Classification and Regression Tree, 分类回归树)
元模型
Bagging、Boosting、随机森林
贝叶斯
朴素贝叶斯、贝叶斯网络
懒惰算法
knn

决策树的庐山面目
    根节点
        一棵决策树只有一个根节点
    叶节点
    中间节点
    二叉树和多叉树
        二叉树:每个节点最多有两个分支
        多叉树:每个节点不止有两个分支
    体现了对样本数据不断分组过程

构建策略————有监督学习
    有监督学习和无监督学习的区别
        分类和聚类

    样本分成两部分
        训练数据集:用于建模
        测试数据集:用于验证

决策树的构建
    树的生长
        采用分而治之的策略
        选变量的顺序:如何从众多决策变量中选择一个当前最佳的决策变量;
        最佳分离点在哪:如何从分组比变量的众多取值中找到一个最佳的分割点;

    树的修剪
        避免过度拟合:过于个性化、失去了一般化

算法分类
ID3
信息增益
没有修剪
C4.5
信息增益率
悲观剪枝法
C5.0
信息增益率
自适应增强
CART(分类回归树)
基尼指数
“代价复杂度”剪枝法

分裂指标
ID3

分裂后的总熵
信息增益
C4.5
分裂信息
信息增益率
CART
基尼系数

准确性评价
评价模型的方式要考虑模型在所有分类中识别出某个分类的能力。对感兴趣的分类称为阳性(Positive)其它的类别称为阴性(negative)
混淆矩阵

指标
    正确率、错误率

    灵敏度(召回率、覆盖率)

    特异性

ROC曲线和AUC
横轴:1-

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值