集成学习二Bagging与Random Forest

本文介绍了集成学习中的两种方法:Bagging和RandomForest。Bagging通过自助采样法进行有放回抽样,生成多个训练集,并基于这些训练集训练多个基学习器,最终通过投票或平均的方法进行预测。RandomForest则进一步引入了属性随机化,增加模型多样性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

集成学习一Boosting http://blog.youkuaiyun.com/loveitlovelife/article/details/79392187
欲得到泛化性能强的集成学习器,要求个体学习器尽可能的相互独立,但是在现实任务中无法做到,但可以设法尽可能的达到“独立”的条件。

Bagging

并行集成学习方法的代表。
基本描述:
基于自助采样法进行有放回抽样,对于m个样本的数据集,则训练集中约有63.2%的数据集出现在采集样本中。( 1(m1m)m 1 − ( m − 1 m ) m ,m取无穷大,63.2%的样本用于训练模型,剩余样本进行“包外估计”),采样出T个含m个训练样本的采样集,然后基于每个采样集训练出基学习器进行结合。
Bagging通常对分类任务使用投票法,对回归任务使用简单平均法。

算法流程
输入:训练集 D=(x1,y1),(x2,y2),...,(xm,ym); D = ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) ;
基学习算法 Λ; Λ ;
训练轮数T.
过程:
1.  for t=1,2,...,T do   f o r   t = 1 , 2 , . . . , T   d o
2:  ht=Λ(D,Dbs)   h t = Λ ( D , D b s )
3: end for e n d   f o r
输出: H(x)=arg maxyΓTt=1II(ht(x)=y) H ( x ) = a r g   m a x y ∈ Γ ∑ t = 1 T I I ( h t ( x ) = y )


+Bagging集成学习器的复杂度与基学习器的复杂度同阶。AdaBoost适用于二分类任务;Bagging用于多分类、回归等任务。

+在决策树模型中,包外样本可以辅助剪枝;神经网络模型中,辅助早期停止减小过拟合风险。

+Bagging关注降低方差,适用于决策树,神经网络。


Random Forest

描述:
对基决策树的每个节点,先从该节点的属性集合中随机选择包含k个属性的子集,然后再从这个子集当中选择一个最优属性用于划分。(推荐值: k=log2d k = l o g 2 d
多样性来源:样本采样的扰动、属性扰动。
训练效率高:Bagging使用“确定性的”决策树,对结点所有属性进行考察;随机森林使用“随机性”决策树,只需考察一个属性子集。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值