这部分主要介绍Ensemble的方法
为什么我们需要Ensemble的方法
在机器学习的有监督学习算法中,我们的目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不这么理想,有时我们只能得到多个有偏好的模型(弱监督模型,在某些方面表现的比较好)。集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来。
常见的Ensemble方法
Ensemble一般有下面的bagging、boosting,stacking的方法
Bagging

这张图横坐标代表模型的阶次,也可以看做模型的复杂度。红线是模型预测与真实值之间的bias,绿线是模型预测与真实值之间的variance,蓝线是观测误差。我们可以看到随着模型逐渐复杂,训练的结果从underfitting到overfitting。我们使用bagging主要是解决数据充足下的overfiting的问题。
Bagging的原理
使用多组数据,通过训练来得到若干个预测的训练模型,我们可以通过对复杂模型取平均来降低variance。

Bagging即套袋法,使用一种有放回的抽样方法,目的为了得到统计量的分布以及置信区间,其算法过程如下:
A)从原始样本集中抽取
集成学习精要

本文深入探讨集成学习的Bagging和Boosting方法,解释为何需要集成多个弱监督模型以形成更强的监督模型。通过随机森林和AdaBoost实例,展示如何解决过拟合和提升分类器性能。
最低0.47元/天 解锁文章
1086

被折叠的 条评论
为什么被折叠?



