ML --集成学习算法算法

最新推荐文章于 2022-06-11 18:25:51 发布

原创最新推荐文章于 2022-06-11 18:25:51 发布 · 311 阅读

CC 4.0 BY-SA版权

10 篇文章

订阅专栏

本文介绍了集成学习的作用，如拓展模型适用范围、处理不同规模数据集等。阐述了其原理，即通过训练多个个体学习器并结合形成强学习器。还对Bagging和Boosting算法进行总结，对比了它们在样本选择、样例权重、预测函数、并行计算等方面的差异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

采用集成学习的原因有以下四点：

分类器间存在一定的差异性，这会导致分类的边界不同，也就是说分类器是一个比较专精的专家，它有它自己一定的适用范围和特长。那么通过一定的策略将多个弱分类器合并后，就可以拓展模型的适用范围，减少整体的错误率，实现更好的效果。
对于数据集过大或者过小，过大会导致训练一个模型太慢，过小则会导致训练不充分，在这种情况下可以分别对数据集进行划分和有放回的操作产生不同的数据子集，然后使用数据子集训练不同的分类器，最终再将不同的分类器合并成为一个大的分类器。
注：这种方案的优势就在于，提高了准确度和训练速度，使得之前很难利用的数据得到了充分的利用
如果数据的划分边界过于复杂，使用线性模型很难描述情况，那么可以训练多个模型，然后再进行模型的融合。
注：这种特性就好比当初素描老师教我们画圆一样，画一个正方形，再用一堆小直线一点一点切成圆形。
对于多个异构的特征集的时候，很难进行融合，那么可以考虑每个数据集构建一个分类模型，然后将多个模型融合。

样本选择：
Bagging算法是有放回的随机采样
Boosting算法是每一轮训练集不变，只是训练集中的每个样例在分类器中的权重发生变化，而权重根据上一轮的分类结果进行调整
样例权重：
Bagging使用随机抽样，样例的权重
Boosting根据错误率不断的调整样例的权重值，错误率越大则权重越大
预测函数：
Bagging所有预测模型的权重相等
Boosting算法对于误差小的分类器具有更大的权重
并行计算：
Bagging算法可以并行生成各个基模型
Boosting理论上只能顺序生产，因为后一个模型需要前一个模型的结果
Bagging是减少模型的variance(方差)，Boosting是减少模型的Bias(偏度)。
Bagging里每个分类模型都是强分类器，因为降低的是方差，方差过高需要降低是过拟合。Boosting里每个分类模型都是弱分类器，因为降低的是偏度，偏度过高是欠拟合。