集成学习（Boosting,Bagging和随机森林）

最新推荐文章于 2025-07-25 20:46:41 发布

原创

最新推荐文章于 2025-07-25 20:46:41 发布 · 7.8k 阅读

CC 4.0 BY-SA版权

文章标签：

今天看了一下集成学习部分，把相关知识点总结了一下。这个是无公式版，想看公式的话，请看《机器学习》--周志华这本书。

通过结合多个学习器完成学习任务，也叫“多分类器系统”、“基于委员会的学习”等。如果集成在一起的学习器都是同一种学习器（例如都是神经网络或者决策树），这种集成叫做“同质集成”，相应的学习器叫做“基学习器”，应用的算法叫做“基学习算法”。如果集成在一起的学习器不是同一种学习器（例如其中包括神经网络和决策树），这种集成叫做“异质集成”，相应的学习器叫做“组件学习器”或“个体学习器”。
集成的目的是获得比通过使用一个学习器获得更好的效果。例如，通过将弱学习器集成，来获得更好的较强的学起器。但通常进行的都是较强学习期的集成。（弱学习器：指泛化性能略优于随机猜测的学习器。例如在二分问题上精度略高于50%的分类器。）
要获得较好的集成效果，应该要求学习器“好而不同”。（好而不同的意思是，单个学习器要有一定的“准确性”，而且学习器之间要有差异。）集成结果通过“投票法”得出。（如果投票结果相同，可随机选择。）如何产生“好而不同”的个体学习器，才是集成学习的核心。