机器学习宝典——第5章:集成学习 (Ensemble Learning)

第5章:集成学习 (Ensemble Learning)

“三个臭皮匠,赛过诸葛亮”。这句古老的谚语完美地诠释了集成学习(Ensemble Learning)的哲学。在机器学习中,我们常常发现,将多个相对较弱的模型(弱学习器)组合起来,其最终的性能表现往往能超越任何一个单一的强模型。集成学习正是这样一种“集众人之智”的强大框架,它在各大算法竞赛中长期霸榜,也是工业界应用最广泛的技术之一。

本章将聚焦于两大主流集成思想:Bagging 和 Boosting,并深入剖析它们的代表算法,尤其是被誉为“王牌模型”的 XGBoost 和 LightGBM。掌握它们,将是你夏令营技术武器库中最锋利的兵器。


5.1 Bagging 与 随机森林 (Random Forest)

Bagging 是并行式集成学习的典型代表,它的核心思想在于通过“民主投票”来降低模型的方差,从而提高模型的稳定性和泛化能力。

  • 核心思想:并行训练,投票/平均决策

    Bagging 的全称是 Bootstrap Aggregating。其步骤可以分解为两步:

    1. Bootstrap (自助采样):从原始的 m m m 个样本的数据集中,进行 m m m 次有放回的随机抽样,构建一个大小同样为 m m m 的新训练集。重复这个过程 T T T 次,我们就得到了 T T T 个不同的训练集。由于是有放回抽样,每个新训练集中平均约有 63.2% 的原始样本,其余则是重复样本。
    2. Aggregating (聚合):使用这 T T T 个训练集,并行地、独立地训练出 T T T 个基模型(例如决策树)。在预测时,将这 T T T 个模型的结果进行聚合:
      • 分类任务:采用简单投票法(Voting),选择票数最多的类别作为最终结果。
      • 回归任务:采用简单平均法(Averaging),将所有模型的预测值取平均作为最终结果。

    随机森林 (Random Forest, RF) 是 Bagging 思想的一个杰出升级版,它专门使用决策树作为基模型,并在 Bagging 的基础上引入了额外的随机性,使得模型的性能更上一层楼。

  • 数学原理

    Bagging 的成功主要源于它能显著降低模型的方差 (Variance)
    假设我们有 T T T独立同分布的随机变量(代表每个基模型的输出) ξ 1 , ξ 2 , … , ξ T \xi_1, \xi_2, \dots, \xi_T ξ1,ξ2,,ξT,每个变量的方差为 σ 2 \sigma^2 σ2。那么,它们的均值 ξ ˉ = 1 T ∑ i = 1 T ξ i \bar{\xi} = \frac{1}{T}\sum_{i=1}^{T}\xi_i ξˉ=T1i=1Tξi 的方差为:
    Var ( ξ ˉ ) = Var ( 1 T ∑ i = 1 T ξ i ) = 1 T 2 ∑ i = 1 T Var ( ξ i ) = T σ 2 T 2 = σ 2 T \text{Var}(\bar{\xi}) = \text{Var}(\frac{1}{T}\sum_{i=1}^{T}\xi_i) = \frac{1}{T^2}\sum_{i=1}^{T}\text{Var}(\xi_i) = \frac{T\sigma^2}{T^2} = \frac{\sigma^2}{T} Var(ξˉ)=Var(T1i=1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱看烟花的码农

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值