机器学习中的决策森林与图像检索技术
1. 新型混合决策森林DF - ReaL2Boost
1.1 背景与动机
集成学习近年来成为主要研究方向,它能提升预测器的泛化性能,吸引了多领域科学家探索。将多个基分类器模型组合成一个聚合分类器,能显著提升分类性能。受Double Bagging方法启发,提出了集成小样本聚合和实逻辑斯蒂提升(real logitBoosting)的新型集成分类器生成方法。
1.2 DF - ReaL2Boost决策森林构建
传统决策树作为基础学习算法时,通常只考虑与特征轴平行的分割。为构建更准确的树,Hothorn和Lausen提出了“Double Bagging”方法,利用袋外样本训练额外的分类器模型并集成输出。
基于小样本能降低回归装袋集成的偏差和方差的理论,采用小的子采样率创建用于分类任务的子装袋集成。该新型决策森林与装袋方法步骤类似,但在更大的特征空间上训练,增强了每个基决策树的表示能力,降低了决策森林的偏差。
以下是构建决策森林的具体步骤:
- 输入 :
- L :训练集
- X :训练数据集中的预测变量
- B :集成中的分类器数量
- {ω1, ..., ωc} :类别标签集合
- ρ :小的子采样率
- x :待分类的数据点
- 输出 :
超级会员免费看
订阅专栏 解锁全文
1004

被折叠的 条评论
为什么被折叠?



