59、集成学习：原理、方法与应用-优快云博客

本文链接：https://blog.youkuaiyun.com/time3/article/details/151315387

集成学习：原理、方法与应用

1. 集成学习概述

决策树在训练数据发生扰动时，预测结果可能会有很大变化，属于高方差估计器。为了降低方差，一种简单的方法是对多个模型进行平均，这就是集成学习。集成学习得到的模型形式如下：
[f(y|x) = \frac{1}{|M|} \sum_{m \in M} f_m(y|x)]
其中，(f_m) 是第 (m) 个基模型。集成模型与基模型的偏差相似，但方差更低，通常能提升整体性能。

对于回归模型，平均是一种合理的组合预测结果的方式；而对于分类器，有时采用多数投票法更好（也称为委员会方法）。假设每个基模型是准确率为 (\theta) 的二分类器，且类别 1 是正确类别。设 (Y_m \in {0, 1}) 是第 (m) 个模型的预测结果，(S = \sum_{m = 1}^{M} Y_m) 是类别 1 的投票数。最终预测器定义为多数投票，即当 (S > M/2) 时为类别 1，否则为类别 0。集成模型选择类别 1 的概率为：
[p = Pr(S > M/2) = 1 - B(M/2, M, \theta)]
其中，(B(x, M, \theta)) 是参数为 (M) 和 (\theta) 的二项分布在 (x) 处的累积分布函数。例如，当 (\theta = 0.51) 且 (M = 1000) 时，(p = 0.73)；当 (M = 10000) 时，(p = 0.97)。不过，在实际应用中，各预测器的错误可能存在相关性，但只要集成足够多样化的模型，仍能取得较好效果。