机器学习学习笔记 1 Bagging模型

最新推荐文章于 2024-06-02 21:03:56 发布

锋锋的快乐小窝

最新推荐文章于 2024-06-02 21:03:56 发布

阅读量789

点赞数 1

分类专栏：机器学习学习笔记文章标签：机器学习笔记决策树

本文链接：https://blog.youkuaiyun.com/weixin_41918150/article/details/130978564

版权

机器学习学习笔记专栏收录该内容

1 篇文章

订阅专栏

Bagging模型

Bagging全称（bootstrap aggregation）并行训练一堆分类器的集成方法。
- 每个基模型可以分别、独立、互不影响地生成
最典型的代表就是随机森林
- 随机：数据采样随机，特征选择随机
- 森林：很多决策树并行放在一起
由于二重随机性，使得每个树基本上都不会一样，最终的结果也会不一样
之所以随机选择，是要保证泛化能力，如果树都一样，那就失去参考价值
随机森林（RF）的优势：
- 它能够处理很高维度（Feature很多）的数据，并且不用做特征选择
- 在训练完后，能够给出那些feature更重要
- 容易做成并行化方法，速度比较快F
- 可以进行可视化展示，便于分析
理论上越多的树效果会越好，但实际上基本超过一定数量就差不多上下浮动
Bagging策略
- 首先对训练数据进行多次随机采样，保证每次得到的是采样数据都是不同的
- 分别训练多个模型，例如树模型（每次使用一份训练集训练一个模型，k 个训练集共得到 k 个基模型）
  - 注：这里没有具体的分类算法或回归方法，需要根据具体问题采用不同的分类或回归方法，如决策树、感知器等
- 预测时需得到所有模型结果再进行集成（利用这k个基模型对测试集进行预测，将k个预测结果进行聚合）
  - 分类问题：将上步得到的k个模型采用投票的方式得到分类结果
  - 回归问题：计算上述模型的均值作为最后的结果，所有模型的重要性相同
随机采样（bootstrap sample）从n个数据点中有放回地重复随机抽取一个样本（即同一个样本可被多次抽取），共抽取n次
OOB策略（袋外数据）
- 就是bagging中每一棵树选择的数据中不在训练集中的
- 可以直接用于进行验证模型
Bagging + 决策树 = 随机森林