task06 boosting
adaboost基本思路
-
初始化训练样本的权值分布,每个样本相同权重
-
训练弱分类器,如果样本分类正确,则在构建下一个训练集中,他的权重就被降低,用更新过的样本训练下一个分类器
-
将所有弱分类器组合成强分类器,各个弱分类器的训练结束后,加大分类正确分类器的权重,降低分类错误率高的若分类器的权重
-
具体步骤如下:
adaboost与Gbdt的区别
- gbdt拟合的是残差,通过负梯度来识别问题,通过计算负梯度来改进模型,所以GBDT可以做到每一轮一定向损失函数减小的梯度方向变化,而传统的boosting算法只能是尽量向梯度方向减小
- adaboostAdaboost用错分数据点来识别问题,通过调整错分数据点的权重来改进模型,损失函数为指数函数
- 两者都是基于加法模型与前向分布加法
bagging与boosting的区别,他们如何提升模型精度
- bagging的弱分类器没有依赖,每个基学习器都会对训练集有放回抽样,每个学习器基于不同的训练集进行训练,最后一班通过投票的办法做出最后的决策,在训练过程中,可以并行
- boosting训练是串行,各个基分类器之间有依赖,每一层在训练的时候,对前一轮分错的样本给与高权重,根据个分类器的结果加权得到最终结果
- bagging通过对训练样本多次采样,训练出多个不同的模型,然后综合减少集成分类器的方差,boosting通过拟合上一轮的残差降低偏差