机器学习学习笔记 1 Bagging模型

Bagging模型

  • Bagging全称(bootstrap aggregation)并行训练一堆分类器的集成方法。
    • 每个基模型可以分别、独立、互不影响地生成
  • 最典型的代表就是随机森林
    • 随机:数据采样随机,特征选择随机
    • 森林:很多决策树并行放在一起
  • 由于二重随机性,使得每个树基本上都不会一样,最终的结果也会不一样
  • 之所以随机选择,是要保证泛化能力,如果树都一样,那就失去参考价值
  • 随机森林(RF)的优势:
    • 它能够处理很高维度(Feature很多)的数据,并且不用做特征选择
    • 在训练完后,能够给出那些feature更重要
    • 容易做成并行化方法,速度比较快F
    • 可以进行可视化展示,便于分析
  • 理论上越多的树效果会越好,但实际上基本超过一定数量就差不多上下浮动
  • Bagging策略
    • 首先对训练数据进行多次随机采样,保证每次得到的是采样数据都是不同的
    • 分别训练多个模型,例如树模型(每次使用一份训练集训练一个模型,k 个训练集共得到 k 个基模型)
      • 注:这里没有具体的分类算法或回归方法,需要根据具体问题采用不同的分类或回归方法,如决策树、感知器等
    • 预测时需得到所有模型结果再进行集成(利用这k个基模型对测试集进行预测,将k个预测结果进行聚合)
      • 分类问题:将上步得到的k个模型采用投票的方式得到分类结果
      • 回归问题:计算上述模型的均值作为最后的结果,所有模型的重要性相同
  • 随机采样(bootstrap sample)从n个数据点中有放回地重复随机抽取一个样本(即同一个样本可被多次抽取),共抽取n次
  • OOB策略(袋外数据)
    • 就是bagging中每一棵树选择的数据中不在训练集中的
    • 可以直接用于进行验证模型
  • Bagging + 决策树 = 随机森林
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值