Bagging模型
- Bagging全称(bootstrap aggregation)并行训练一堆分类器的集成方法。
- 每个基模型可以分别、独立、互不影响地生成
- 最典型的代表就是随机森林
- 随机:数据采样随机,特征选择随机
- 森林:很多决策树并行放在一起
- 由于二重随机性,使得每个树基本上都不会一样,最终的结果也会不一样
- 之所以随机选择,是要保证泛化能力,如果树都一样,那就失去参考价值
- 随机森林(RF)的优势:
- 它能够处理很高维度(Feature很多)的数据,并且不用做特征选择
- 在训练完后,能够给出那些feature更重要
- 容易做成并行化方法,速度比较快F
- 可以进行可视化展示,便于分析
- 理论上越多的树效果会越好,但实际上基本超过一定数量就差不多上下浮动
- Bagging策略
- 首先对训练数据进行多次随机采样,保证每次得到的是采样数据都是不同的
- 分别训练多个模型,例如树模型(每次使用一份训练集训练一个模型,k 个训练集共得到 k 个基模型)
- 注:这里没有具体的分类算法或回归方法,需要根据具体问题采用不同的分类或回归方法,如决策树、感知器等
- 预测时需得到所有模型结果再进行集成(利用这k个基模型对测试集进行预测,将k个预测结果进行聚合)
- 分类问题:将上步得到的k个模型采用投票的方式得到分类结果
- 回归问题:计算上述模型的均值作为最后的结果,所有模型的重要性相同
- 随机采样(bootstrap sample)从n个数据点中有放回地重复随机抽取一个样本(即同一个样本可被多次抽取),共抽取n次
- OOB策略(袋外数据)
- 就是bagging中每一棵树选择的数据中不在训练集中的
- 可以直接用于进行验证模型
- Bagging + 决策树 = 随机森林