机器学习之集成算法 随机森林 sklearn

本文介绍了集成学习的三种主要方法:Bagging、Boosting和Stacking,并以随机森林为例,详细讲解了其工作原理。随机森林是一种基于Bagging的算法,通过数据的随机抽样和特征选择构建多个决策树,最后通过投票或平均决定最终结果。此外,文章还利用泰坦尼克号数据集展示了随机森林的实际应用,包括数据预处理和模型构建过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • Bagging
  • Boosting
  • Stacking
  • 代码演示

集成算法目的:简单来说就是构建并结合多个学习分类器来完成学习任务,也称为多分类器系统。
例如:有分类任务,使用A分类器和B分类器分别做分类,再结合结果输出。当然有多种模式。

1.Bagging

训练多个分类器取平均值
f ( x ) = 1 M ∑ m = 1 M f ( x ) f(x) = \frac{1}{M} \sum_{m=1}^M f(x) f(x)=M1m=1Mf(x)

也就是并行进行一堆分类器,最后求平均
代表的算法就是随机森林,各个tree之间不影响。
随机:数据随机采样(数据有放回的随机采样,特征采集随机采集)
在这里插入图片描述

2.Boosting

从弱学习器开始加强,通过加权来进行训练(类似与串行运行)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值