机器学习宝典——第5章：集成学习 (Ensemble Learning)

原创

已于 2025-07-07 02:43:17 修改 · 1k 阅读

·

21

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #人工智能

于 2025-07-05 04:37:11 首次发布

文章目录

- **第5章：集成学习 (Ensemble Learning)**

第5章：集成学习 (Ensemble Learning)

“三个臭皮匠，赛过诸葛亮”。这句古老的谚语完美地诠释了集成学习（Ensemble Learning）的哲学。在机器学习中，我们常常发现，将多个相对较弱的模型（弱学习器）组合起来，其最终的性能表现往往能超越任何一个单一的强模型。集成学习正是这样一种“集众人之智”的强大框架，它在各大算法竞赛中长期霸榜，也是工业界应用最广泛的技术之一。

本章将聚焦于两大主流集成思想：Bagging 和 Boosting，并深入剖析它们的代表算法，尤其是被誉为“王牌模型”的 XGBoost 和 LightGBM。掌握它们，将是你夏令营技术武器库中最锋利的兵器。

5.1 Bagging 与随机森林 (Random Forest)

Bagging 是并行式集成学习的典型代表，它的核心思想在于通过“民主投票”来降低模型的方差，从而提高模型的稳定性和泛化能力。

核心思想：并行训练，投票/平均决策

Bagging 的全称是 Bootstrap Aggregating。其步骤可以分解为两步：
1. Bootstrap (自助采样)：从原始的 $m$ 个样本的数据集中，进行 $m$ 次有放回的随机抽样，构建一个大小同样为 $m$ 的新训练集。重复这个过程 $T$ 次，我们就得到了 $T$ 个不同的训练集。由于是有放回抽样，每个新训练集中平均约有 63.2% 的原始样本，其余则是重复样本。
2. Aggregating (聚合)：使用这 $T$ 个训练集，并行地、独立地训练出 $T$ 个基模型（例如决策树）。在预测时，将这 $T$ 个模型的结果进行聚合：
  - 分类任务：采用简单投票法（Voting），选择票数最多的类别作为最终结果。
  - 回归任务：采用简单平均法（Averaging），将所有模型的预测值取平均作为最终结果。
随机森林 (Random Forest, RF) 是 Bagging 思想的一个杰出升级版，它专门使用决策树作为基模型，并在 Bagging 的基础上引入了额外的随机性，使得模型的性能更上一层楼。
数学原理

Bagging 的成功主要源于它能显著降低模型的方差 (Variance)。
假设我们有 $T$ 个独立同分布的随机变量（代表每个基模型的输出） $\xi_1, \xi_2, \dots, \xi_T$ ，每个变量的方差为 $\sigma^2$ 。那么，它们的均值 $\bar{\xi} = \frac{1}{T}\sum_{i=1}^{T}\xi_i$ 的方差为：
$\text{Var}(\bar{\xi}) = \text{Var}(\frac{1}{T}\sum_{i=1}^{T}\xi_i) = \frac{1}{T^2}\sum_{i=1}^{T}\text{Var}(\xi_i) = \frac{T\sigma^2}{T^2} = \frac{\sigma^2}{T}$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

爱看烟花的码农 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。