集成学习

1. 什么是集成学习?

组合多个弱学习器,形成一个强学习器。常见的集成学习思想:bagging,boosting,stacking

 

2. bagging方法

思想:采用又放回抽样的方式,从原始数据集抽出s个新的数据集来训练s个分类器。利用bagging训练出来的模型,在对新的数据集进行预测时,会采用多数投票的方式或者是求平均值的方式。

下图简单介绍了,bagging训练的过程:

 

下图简单介绍了,bagging预测的过程:

3. 随机森林

随机森林,是bagging算法中的一种,它有着如下的特性:

a.采用bootstrap的方式抽取n个样本

b.从所有属性中随机选择k个属性,采用最佳分割点的方式来创建决策树

c.重复上面的步骤创建m棵决策树

d.这m棵决策树形成随机森林,通过投票的方式来决定数据属于哪一类

常见的RF变种算法如下:Extra Tree,Totally Random Trees Embedding(TRTE),Isolation Forest(用于异常点检测)
 

4. extra tree

Extra Tree是RF的一个变种,原理基本和RF一样,区别如下:
1. RF会随机采样来作为子决策树的训练集,而Extra Tree每个子决策树采用原始数
据集训练;
2. RF在选择划分特征点的时候会和传统决策树一样,会基于信息增益、信息增益率、
基尼系数、均方差等原则来选择最优特征值;而Extra Tree会随机的选择一个特征值
来划分决策树。
Extra Tree因为是随机选择特征值的划分点,这样会导致决策树的规模一般大于
RF所生成的决策树。也就是说Extra Tree模型的方差相对于RF进一步减少。在某
些情况下,Extra Tree的泛化能力比RF的强
 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值