文章目录
第5章:集成学习 (Ensemble Learning)
“三个臭皮匠,赛过诸葛亮”。这句古老的谚语完美地诠释了集成学习(Ensemble Learning)的哲学。在机器学习中,我们常常发现,将多个相对较弱的模型(弱学习器)组合起来,其最终的性能表现往往能超越任何一个单一的强模型。集成学习正是这样一种“集众人之智”的强大框架,它在各大算法竞赛中长期霸榜,也是工业界应用最广泛的技术之一。
本章将聚焦于两大主流集成思想:Bagging 和 Boosting,并深入剖析它们的代表算法,尤其是被誉为“王牌模型”的 XGBoost 和 LightGBM。掌握它们,将是你夏令营技术武器库中最锋利的兵器。
5.1 Bagging 与 随机森林 (Random Forest)
Bagging 是并行式集成学习的典型代表,它的核心思想在于通过“民主投票”来降低模型的方差,从而提高模型的稳定性和泛化能力。
-
核心思想:并行训练,投票/平均决策
Bagging 的全称是 Bootstrap Aggregating。其步骤可以分解为两步:
- Bootstrap (自助采样):从原始的 m m m 个样本的数据集中,进行 m m m 次有放回的随机抽样,构建一个大小同样为 m m m 的新训练集。重复这个过程 T T T 次,我们就得到了 T T T 个不同的训练集。由于是有放回抽样,每个新训练集中平均约有 63.2% 的原始样本,其余则是重复样本。
- Aggregating (聚合):使用这 T T T 个训练集,并行地、独立地训练出 T T T 个基模型(例如决策树)。在预测时,将这 T T T 个模型的结果进行聚合:
- 分类任务:采用简单投票法(Voting),选择票数最多的类别作为最终结果。
- 回归任务:采用简单平均法(Averaging),将所有模型的预测值取平均作为最终结果。
随机森林 (Random Forest, RF) 是 Bagging 思想的一个杰出升级版,它专门使用决策树作为基模型,并在 Bagging 的基础上引入了额外的随机性,使得模型的性能更上一层楼。
-
数学原理
Bagging 的成功主要源于它能显著降低模型的方差 (Variance)。
假设我们有 T T T 个独立同分布的随机变量(代表每个基模型的输出) ξ 1 , ξ 2 , … , ξ T \xi_1, \xi_2, \dots, \xi_T ξ1,ξ2,…,ξT,每个变量的方差为 σ 2 \sigma^2 σ2。那么,它们的均值 ξ ˉ = 1 T ∑ i = 1 T ξ i \bar{\xi} = \frac{1}{T}\sum_{i=1}^{T}\xi_i ξˉ=T1∑i=1Tξi 的方差为:
Var ( ξ ˉ ) = Var ( 1 T ∑ i = 1 T ξ i ) = 1 T 2 ∑ i = 1 T Var ( ξ i ) = T σ 2 T 2 = σ 2 T \text{Var}(\bar{\xi}) = \text{Var}(\frac{1}{T}\sum_{i=1}^{T}\xi_i) = \frac{1}{T^2}\sum_{i=1}^{T}\text{Var}(\xi_i) = \frac{T\sigma^2}{T^2} = \frac{\sigma^2}{T} Var(ξˉ)=Var(T1i=1∑

最低0.47元/天 解锁文章
797

被折叠的 条评论
为什么被折叠?



