集成学习——好而不同

集成学习通过结合多个弱学习器形成强学习器,其中Bagging和Boosting是两种主要方法。Bagging通过有放回抽样实现多样性,如随机森林;而Boosting通过递归调整样本权重,如Adaboost、GBDT。集成学习的核心在于产生「好而不同」的个体学习器,以降低方差并提高泛化能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

接上一篇《树分类与树回归》,进一步讲解将弱分类器集成强分类器的集成方法。

除了对现有理论知识的提炼汇总外,增加了很多自己的理解,请尊重原创。


一、集成原理

    机器学习常常用来解决分类与回归的问题,我们总是希望找到一个这样模型,它不仅对现有数据具有很好的拟合能力,对测试数据也有优秀的泛化能力,同时希望计算成本越低越好。实际上,对于一个实际问题往往找不到这么完美的解决方案,但是寻找一个表现不那么差的模型还是容易的多。

    老话说:“三个臭皮匠,顶个诸葛亮”。集成学习就是建立在这样的思想上,并且已经有严格的理论证明了【任意给定仅比随机猜测略好的弱学习算法可以提升为强学习算法】这样的弱学习算法与强学习算法的等价性问题。当然前提是弱学习算法的结果要比随机结果好一丢丢,用一堆与随机结果相同甚至更差的算法是不会集成出收敛至正确结果的模型的。

    在集成的过程中,涉及到2个问题:

  1.     对弱学习器有什么要求?这些弱学习器可以不一样吗?
  2.     这些弱学习器都是等价的吗?最后要如何“统一”这些臭皮匠的结果呢?

针对第一个问题——个体学习器 / 弱学习器

  • 1.1 个体学习器应当“好而不同”,保证准确性的同时尽可能让学习器间存在多样性。但准确性与多样性存在冲突,当准确性很高之后,提高多样性会降低准确性。——集成学习的研究核心是如何产生并结合【好而不同】的个体学习器。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值