AdaBoost,GBDT以及XGBoost

一、AdaBoost

1 AdaBoost与GBDT比较

AdaBoost的迭代是重点拟合那些之前分错的样本。GBDT是在拟合残差。

相同点:1 加性模型+前向分步算法  2 每一步训练一个弱学习器以弥补前面模型的不足,都不能并行计算 3 都是减小偏差

不同点:1 AdaBoost中,当前学习器的“不足”由样本权重来决定  2 GBDT中当前学习器的不足“由”梯度决定

AdaBoost一般用于分类,GBDT一般用于回归,所以损失函数也不同。

AdaBoost存在对异常值敏感的问题,异常值被分类错误将会得到较大的权重,使得训练权重出现偏差。

2 AdaBoost几种基本机器学习算法哪个抗噪能力强,哪个对重采样不敏感?

提升方法包括AdaBoost,GBDT,随机森林等。AdaBoost算法可将弱分类器,例如决策树,LR,SVM等进行组合,提高预测能力。

AdaBoost与SVM算法的抗噪能力强,SVM作为弱分类器。

3 AdaBoost与随机森林的区别

对于提升方法,有两个问题需要回答:1 每一轮如何改变训练数据的权值或概率分布?2 如何将弱分类器组合成一个强分类器?

AdaBoost:提高被前一轮弱分类器错误分类的样本的权值,而降低那些被正确分类的样本的权值。加权多数表决方法,加大分类误差率小的弱分类器的权值,使其在表决中起较大作用,减小分类误差率大的弱分类器的权值,使其在表决中起较小的作用。

随机森林:训练样本随机选取。虽然每一棵树的训练样本个数都是样本总数N,但是每一个样本的随机选取都是有放回的选取。这样,每一颗树的训练样本几乎都不相同。特征随机选取,假设训练数据有M个特征,随机森林的每一棵树只选取m(m < M)个特征用于构建决策树。每一棵树选取的特征可能都不完全相同。

强调:随机森林不进行剪枝。决策树剪枝是为了防止过拟合,而随机森林的“随机”已经防止了过拟合,因此不需要剪枝。

补充:随机森林有两个参数需要人为控制,一个是森林中树的数量,一般建议取很大。另一个是m的大小,推荐m

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值