集成学习:原理、方法与应用
1. 集成学习概述
决策树在训练数据发生扰动时,预测结果可能会有很大变化,属于高方差估计器。为了降低方差,一种简单的方法是对多个模型进行平均,这就是集成学习。集成学习得到的模型形式如下:
[f(y|x) = \frac{1}{|M|} \sum_{m \in M} f_m(y|x)]
其中,(f_m) 是第 (m) 个基模型。集成模型与基模型的偏差相似,但方差更低,通常能提升整体性能。
对于回归模型,平均是一种合理的组合预测结果的方式;而对于分类器,有时采用多数投票法更好(也称为委员会方法)。假设每个基模型是准确率为 (\theta) 的二分类器,且类别 1 是正确类别。设 (Y_m \in {0, 1}) 是第 (m) 个模型的预测结果,(S = \sum_{m = 1}^{M} Y_m) 是类别 1 的投票数。最终预测器定义为多数投票,即当 (S > M/2) 时为类别 1,否则为类别 0。集成模型选择类别 1 的概率为:
[p = Pr(S > M/2) = 1 - B(M/2, M, \theta)]
其中,(B(x, M, \theta)) 是参数为 (M) 和 (\theta) 的二项分布在 (x) 处的累积分布函数。例如,当 (\theta = 0.51) 且 (M = 1000) 时,(p = 0.73);当 (M = 10000) 时,(p = 0.97)。不过,在实际应用中,各预测器的错误可能存在相关性,但只要集成足够多样化的模型,仍能取得较好效果。
1.1 堆叠法
除了使用无权重平均或多数投票法,还可以学习如何组合基模型,具体形式如下:
[f(y
集成学习:原理与应用解析
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



