集成学习算法详解：Bagging、Boosting、随机森林与异常检测-优快云博客

本文链接：https://blog.youkuaiyun.com/NeilGY/article/details/82803917

本文总结了集成学习的思想及主要算法，包括Bagging、Boosting和Stacking。重点讲解了随机森林（RF）、Extra Trees、TRTE和Isolation Forest（IForest）。随机森林在构建时通过Bootstrap采样和随机特征选择，适用于分类、回归和异常检测。IForest利用类似RF的方式检测异常点，适用于少量数据。对比了Bagging与Boosting的差异，如样本选择、样例权重和预测函数。最后提及了Stacking方法，即利用多个模型作为输入训练新模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

集成算法总结:
1.思想:将若干个弱学习器组合之后产生一个新学习器，弱学习器的准确率需在0.5以上。
2.算法分类：1.Bagging.2.Boosting.3.Stacking
3.算法简介:
Bagging: 通过随机采样，从训练集中采集固定个数的样本，没采集一次都将样本放回，也就是说之前采集到的样本有可能被继续采集到。然后选择出T个数据集分别训练T个模型的集成技术。
随机森林(RF)：（随机森林在构建过程中各个树是相互独立的）
   1.从原始样本集(n个样本)中用Bootstrap采样(有放回重采样)选出n个样本；真正用于模型训练的是这抽取出来的样本去重之后的数据集，也就是一般情况用户模型训练的样本数目实际不等于n，应该是小于n
   2.使用抽取出来的子数据集(去重后)来训练决策树；从所有属性中随机选择K个属性，从K个属性中选择出最佳分隔属性作为节点来迭代的创建决策树。
   3.重复以上两步m次，建立m棵决策树
   4.这m个决策树属于随机森林，通过投票选择决定数据属于哪一类
RF应用：分类、回归、特征转换、异常点检测等
RF的变种算法：
Extra Tree:原理基本和RF一样，区别如下：
   1.Rf会随机重采样来作为子决策树的训练集，而Extra Tree每个决策树采用原始数据集训练。
   2.RF选择划分特征点的时候会和传统决策树一样，会基于信息增益、信息增益率、基尼系数、均方差等原则来选择最优特征值;而ExtraTree会随机选择一个特征值来划分决

集成学习总结