（《机器学习》完整版系列）第8章集成学习——8.6 级联集成（Stacking算法、其他级联）

原创

已于 2023-03-31 10:39:09 修改 · 687 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #集成学习 #机器学习

于 2023-02-28 19:21:37 首次发布

文章介绍了级联集成的概念，特别是Stacking算法的步骤和应用，强调了通过初级学习器和次级学习器的结合来提高预测性能。同时，讨论了如何通过交叉验证避免过拟合问题，并对比了Boosting和Bagging在降低偏差和方差上的差异。此外，提到了多级集成以及AdaBoost和Bagging在级联结构中的作用，如MutilBoosting和IterativeBagging算法。

假定已经训练出一组学习器，那么，可以由这组学习器的输出结果作为样本，再以此训练出一个学习器，这就形成了二级级联形式。
将投票视为一级，则基于投票法的算法（如，AdaBoost）也是级联。

级联集成

投票是一种常用的集成策略，另一种常见的集成策略是级联集成

Stacking算法

对于数据集 $D$ ，假定已经训练出一组学习器 $h_1,h_2,\cdots,h_T$ ，那么，可以由这组学习器的输出结果作为样本，再以此训练出一个学习器，这就形成了二级级联形式。第二级（次级）的训练如图8.1所示。
图8.1 第二级（次级）的训练

[图8.1 第二级（次级）的训练

【西瓜书图8.9】所示的Stacking算法分为三大步：

（1）用训练集 $D$ 训练出一组学习器（初级学习器） $h_t$ ，第1-3句。

（2）用这组学习器去预测 $D$ 中的样本 $\boldsymbol{x}_i$ ，生成另一空间中的样本 $\boldsymbol{z}_i$ （参见图8.1左半部分），将这个样本组装成样例 $(\boldsymbol{z}_i,y_i)$ ，其中 $y_i$ ，源于原样例 $(\boldsymbol{x}_i,y_i)$ 。则由 $D$ 生成了新样例集 $D^{'}$ ，即第4-10句。