Bagging的思路
与voting不同,Bagging不仅集成模型最后的预测结果,同时采用一定策略来影响基模型训练,保证基模型可以服从一定的假设。
哇偶
bagging的原理分析
bagging的核心 --> 来自于 自助采样(bootstrap)这一概念
aka 有放回的从dataset进行采样
aka 同样的一个样本可能被多次进行采样
自助采样例子:
我们希望估计全国所有人口年龄的平均值
1、在全国所有人口中随机抽取不同的集合(集合可能存在交集
2、计算每个集合的平均值
3、avg(所有聚合平均值) == 估计值
Bagging的基本流程:
- 随机取出一个样本放入采样集合中,再把这个样本放回初识dataset
- 重复K次
- 最终获得一个大小为k的样本集合
- 采样出T个含k个样本的采样集合
- 然后基于每个采样集合,训练初一个基学习器
- 再将这些基学习器进行结合
how
- 回归 — 通过预测取平均值
- 分类 — 通过对预测取多数票预测
Bagging 为什么有效
因为每个模型都是在略微不同的training data上拟合完成的,这又使得每个基模型之间存在略微的差异,使每个基模型拥有略微不同的训练能力。
Bagging同样是一种 降低方差的技术
因此它在不剪枝决策树、神经网络等易受样本扰动的学习器上效果更加明显。
在实际的使用中,加入列采样的Bagging技术对高维小样本往往又神奇的效果。
bagging的案例分析
sklearn通过两种Bagging方法
BaggingRegressor
BaggingClassifier
两种方法的默认基模型是树模型
决策树:
树的每个非叶子节点:对样本在一个特征上的判断
节点下方的分支:对样本的划分
决策树的建立过程:
一个对数据不断划分的过程,每次划分中,
1、首先要选择用于划分的特征
2、之后要确定划分的方案(类别/阈值)
我们希望通过划分,决策树的分支节点所包含的样本“纯度“尽可能地高
节点划分过程中所用的指标:
- 信息增益
- 衡量划分前后信息不确定性程度的减小
- 信息不确定程度 一般使用 信息熵 来度量
- 信息熵公式 H ( Y ) = − ∑ p i l o g p i H(Y)=−∑p_ilogp_i H(Y)=−∑p