集成学习算法

本文深入解析集成学习原理,探讨Bagging与Boosting两种核心方法,分别用于提高泛化性能和训练精度,解决过拟合与欠拟合问题。通过对比两者在数据采样、投票方式及学习顺序上的差异,阐述其在随机森林等算法中的应用。

集成学习通过建立几个模型来解决单一预测问题

原理: 生成多个学习器或者模型,各自独立地学习和做出预测,这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测

  1. 机器学习的两个核心人物

    如何优化训练数据 主要用于解决欠拟合问题

    如何提升泛化性能 主要用于解决过拟合问题

  2. 集成学习中的Boosting和Bagging

    解决欠拟合问题:Boosting

    解决过拟合问题:Bagging

  3. Bagging

    就是在一堆数据中随机抽取不同数据的一部分,然后训练,最终平权

    例如下面的过程
    在这里插入图片描述
    实现过程
    在这里插入图片描述
    在这里插入图片描述

    在这里插入图片描述

在这里插入图片描述
4. 随机森林构造

随机森林时一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数]

随机森林 = Bagging + 决策树

随机森林够造过程中的关键步骤(M表示特征数目):

1)一次随机选出一个样本,有放回的抽样,重复N次(有可能出现重复的样本)

2) 随机去选出m个特征, m <<M,建立决策
  1. Bagging集成的优点

    Bagging + 决策树/线性回归/逻辑回归/深度学习… = bagging集成学习方法

    1.均可在原有的算法上面提高越2%左右的泛化正确率

    2.简单,方便,通用

  2. Boostng

    随着学习的积累从弱到强的过程

    代表算法:Adaboost,GBDT,XGBoost

  3. bagging集成与boosting集成的区别:

    区别一:数据方面

    Bagging:对数据进行采样训练;

    Boosting:根据前一轮学习结果调整数据的重要性。

    区别二:投票方面

    Bagging:所有学习器平权投票;

    Boosting:对学习器进行加权投票。

    区别三:学习顺序

    Bagging的学习是并行的,每个学习器没有依赖关系;

    Boosting学习是串行,学习有先后顺序。

    区别四:主要作用

    Bagging主要用于提高泛化性能(解决过拟合,也可以说降低方差)

    Boosting主要用于提高训练精度 (解决欠拟合,也可以说降低偏差)
    在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值