一、AdaBoost
1 AdaBoost与GBDT比较
AdaBoost的迭代是重点拟合那些之前分错的样本。GBDT是在拟合残差。
相同点:1 加性模型+前向分步算法 2 每一步训练一个弱学习器以弥补前面模型的不足,都不能并行计算 3 都是减小偏差
不同点:1 AdaBoost中,当前学习器的“不足”由样本权重来决定 2 GBDT中当前学习器的不足“由”梯度决定
AdaBoost一般用于分类,GBDT一般用于回归,所以损失函数也不同。
AdaBoost存在对异常值敏感的问题,异常值被分类错误将会得到较大的权重,使得训练权重出现偏差。
2 AdaBoost几种基本机器学习算法哪个抗噪能力强,哪个对重采样不敏感?
提升方法包括AdaBoost,GBDT,随机森林等。AdaBoost算法可将弱分类器,例如决策树,LR,SVM等进行组合,提高预测能力。
AdaBoost与SVM算法的抗噪能力强,SVM作为弱分类器。
3 AdaBoost与随机森林的区别
对于提升方法,有两个问题需要回答:1 每一轮如何改变训练数据的权值或概率分布?2 如何将弱分类器组合成一个强分类器?
AdaBoost:提高被前一轮弱分类器错误分类的样本的权值,而降低那些被正确分类的样本的权值。加权多数表决方法,加大分类误差率小的弱分类器的权值,使其在表决中起较大作用,减小分类误差率大的弱分类器的权值,使其在表决中起较小的作用。
随机森林:训练样本随机选取。虽然每一棵树的训练样本个数都是样本总数N,但是每一个样本的随机选取都是有放回的选取。这样,每一颗树的训练样本几乎都不相同。特征随机选取,假设训练数据有M个特征,随机森林的每一棵树只选取m(m < M)个特征用于构建决策树。每一棵树选取的特征可能都不完全相同。
强调:随机森林不进行剪枝。决策树剪枝是为了防止过拟合,而随机森林的“随机”已经防止了过拟合,因此不需要剪枝。
补充:随机森林有两个参数需要人为控制,一个是森林中树的数量,一般建议取很大。另一个是m的大小,推荐m

最低0.47元/天 解锁文章
333

被折叠的 条评论
为什么被折叠?



