集成学习（Ensemble Learning）

原创已于 2023-10-18 17:08:31 修改 · 483 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#集成学习 #机器学习 #人工智能

于 2018-10-16 21:36:28 首次发布

机器学习专栏收录该内容

1 篇文章

订阅专栏

本文深入解析集成学习原理，包括Boosting和Bagging两大流派，详细介绍AdaBoost、GBDT及XGBoost等常见分类器的工作机制，揭示如何通过结合多个弱分类器提升预测精度。

集成学习，简单的来讲就是构建多个弱分类器对数据集进行预测，然后用某种策略将多个弱分类器的预测结果集成起来。

集成学习要求每个弱分类器有一定的准确性，且各个分类器之间具备一定的差异性。

根据各个分类之间有无依赖关系，集成学习可以分为Boosting，Bagging两大流派。

Boosting流派：各个分类器之间有依赖关系，必须串行。典型的如AdaBoost，GBDT，XGBoost。

Bagging流派：各个分类器之间没有依赖关系，可各自并行。典型的如随机森林。

简单介绍一下常见的分类器：

一.Boosting流派：

1.AdaBoost(Adaptive Boosting)

全称自适应增强，最早提出于1995年。

AdaBoost的自适应在于：前一个弱分类器分错的样本权重会得到增强，加权后全体样本再次被用来训练下一个弱分类器。同时，每一轮加入一个新的弱分类器，直到达到某个预定的足够小的错误率或者达到最大迭代次数。

AdaBoost的训练过程为：1.初始化训练数据的权值分布。若有N个样本，则每个样本最开始都被赋予相同的权重：1/N；2.训练弱分类器。若某个样本点已被准确分类，则构造下一个训练集时，权值降低，反之则提高。权值更新过的样本集被用于训练下一个弱分类器，迭代进行；3.将各个训练得到的弱分类器组合成强分类器。训练结束后，加大分类误差率小的分类器的权重，降低分类误差率大的分类器的权重。即误差率低的弱分类器在最终的分类器中占的权重较大。

AdaBoost的实例推荐看这个博客 AdaBoost实例。

2.GBDT(Gradient Boost Decision Tree)

全称梯度下决策树。

GBDT的每一次计算都是为了减少上一次的残差，进而在残差减少（负梯度）的方向上建立一个新模型。

举个例子：如第一个样本为[(2,4,5)->4]，即输入为2,4,5；标签为4。而决策树1的预测结果为3.3。则接下来决策树2的样本标签就会更新为[(2,4,5)->0.7]。依此迭代进行，直到构建完成。

回归树形成的关键点在于：1.分裂点依据什么来划分（均方误差最小，loss）；2.分类后的节点预测值多少。

3.XGBoost

XGBoost主要是改进了GBDT。相比GBDT，XGBoost更快，且准确率更高。

XGBoost和GBDT的主要不同在于目标函数的定义。

$y =\frac{\frac{}{}1}{\log_{2}(i+2)}$

$A^{_{_{n*N}}^{a}}$

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。