集成学习

最新推荐文章于 2024-10-21 09:35:19 发布

原创最新推荐文章于 2024-10-21 09:35:19 发布 · 779 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

Machine Learning 专栏收录该内容

56 篇文章

订阅专栏

本文介绍了集成学习的基本概念，包括其定义、结构及如何通过结合多个学习器提高泛化性能。文章还探讨了个体学习器应具备的特点，并概述了几种常见的结合策略。最后，提到了集成学习方法的两大类：序列化方法（如Boosting）和并行化方法（如随机森林）。

最近读了一个paper，发现里面有设计随机森林的，追根溯源，找到了集成学习的知识，边学边总结：

集成学习（ensemble learning）通过构建并结合多个学习器来完成学习任务，有时候也被称为多分类器系统。

下图显示了集成学习的一般结构:先产生一组“个体学习器”，再用某种策略将他们结合起来，个体学习器通常由一个现有的学习算法从训练数据中产生，例如：C4.5决策树算法、BP神经网络算法等，此时集成中只包含同种类型的个体学习器，例如“决策树集成”中全是决策树，“神经网络集成”中全是神经网络，这样的集成是“同质”的，同质集成中的个体学习器亦称“基学习器”，相应的学习算法称为“基学习算法”，当然集成也可以包含不同的学习器，比如有的是决策树学习器，有的是神经网络学习器，那么就称这样的集成为“异质”

集成学习通过将多个学习器进行结合，常可获得比单一学习器显著优越的泛化性能，这对：“弱学习器”尤为明显，因此集成学习的很多理论研究都是针对弱学习器进行的，而基学习器有时直接被称为弱学习器，但是需要注意的是，虽然从理论上来说使用弱学习器集成足以获得好的性能，但在实践中出于种种考虑。例如希望使用较少的个体学习器。或是重用关于常见学习器的一些经验等，人们往往会使用比较强的学习器。

所以要获得好的集成，个体学习器应“好而不同”，即个体学习器要有一定的准确性，即学习器不能太坏，并且要有“多样性”，即学习器之间有差异。

上图所示的结合策略一般有以下几种方法：

平均法

投票法

学习法

根据个体学习器的生成方式，目前的集成学习方法大致分为两大类：

即个体学习器间存在强依赖关系、必须串行生成的序列化方法，以及个体学习器之间不存在强依赖关系、可同时生成的并行化方法，前者的代表是Boosting，后者的代表是Random Forest（随机森林）。

下续分别介绍这两个算法。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。