带分类噪声数据集上的Bagging决策树
1. 决策树基础
1.1 C4.5决策树相关处理
- 样本划分 :最终选择能对样本进行划分且具有最高分裂得分(即信息增益比)的划分方式。
- 处理缺失值 :假设缺失值是随机分布的(随机缺失假设)。为计算得分,将实例分割成若干部分。实例的初始权重为1,当它沿着某个分支向下时,其权重等于属于该分支的实例比例(权重总和为1)。基于信息增益的得分可以使用权重总和而非计数总和来处理这些分数实例。在进行预测时,C4.5通过合并与实例一致的所有可能分支的预测结果,并使用之前计算的权重来边缘化缺失变量。
- 后剪枝过程 :C4.5采用的后剪枝技术称为悲观误差剪枝。该方法使用二项分布的连续性校正来计算给定子树的估计误差率的上限。如果从某个节点悬挂的子树的上限大于假设该节点作为叶子节点时的估计误差上限,则修剪该子树。
1.2 决策树集成
决策树集成在分类器集成模型家族中,在性能、简单性和理论基础方面呈现出最佳的权衡。其基本思想是生成一组不同的决策树,并使用多数投票准则将它们组合起来。即当出现一个未标记的未分类实例时,每个单独的决策树进行预测,实例通常被分配给获得最多投票的类别值。构建集成时,多样性是一个关键点。若所有决策树非常相似,集成性能不会比单个决策树好很多;若集成由广泛的不同决策组成且各决策树性能良好,集成将更稳健,具有更好的预测能力。常见的决策树集成方法有Bagging、随机森林和AdaBoost。