32、带分类噪声数据集上的Bagging决策树

root9

于 2025-07-03 15:34:42 发布

阅读量5

点赞数

CC 4.0 BY-SA版权

分类专栏：探索信息与知识系统的基础文章标签： Bagging决策树 C4.5 可信决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/root9/article/details/149365508

探索信息与知识系统的基础专栏收录该内容

44 篇文章 ¥399.00 ¥499.90

订阅专栏

超级会员免费看

带分类噪声数据集上的Bagging决策树

1. 决策树基础

1.1 C4.5决策树相关处理

样本划分 ：最终选择能对样本进行划分且具有最高分裂得分（即信息增益比）的划分方式。
处理缺失值 ：假设缺失值是随机分布的（随机缺失假设）。为计算得分，将实例分割成若干部分。实例的初始权重为1，当它沿着某个分支向下时，其权重等于属于该分支的实例比例（权重总和为1）。基于信息增益的得分可以使用权重总和而非计数总和来处理这些分数实例。在进行预测时，C4.5通过合并与实例一致的所有可能分支的预测结果，并使用之前计算的权重来边缘化缺失变量。
后剪枝过程 ：C4.5采用的后剪枝技术称为悲观误差剪枝。该方法使用二项分布的连续性校正来计算给定子树的估计误差率的上限。如果从某个节点悬挂的子树的上限大于假设该节点作为叶子节点时的估计误差上限，则修剪该子树。

1.2 决策树集成

决策树集成在分类器集成模型家族中，在性能、简单性和理论基础方面呈现出最佳的权衡。其基本思想是生成一组不同的决策树，并使用多数投票准则将它们组合起来。即当出现一个未标记的未分类实例时，每个单独的决策树进行预测，实例通常被分配给获得最多投票的类别值。构建集成时，多样性是一个关键点。若所有决策树非常相似，集成性能不会比单个决策树好很多；若集成由广泛的不同决策组成且各决策树性能良好，集成将更稳健，具有更好的预测能力。常见的决策树集成方法有Bagging、随机森林和AdaBoost。

1.3 Breiman的B

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。