目录
树模型
bagging


Boosting

大多数的Boosting方法都是通过改变训练数据集的概率分布(训练数据不同样本的权值),针对不同概率分布的数据调用弱分类算法学习一系列的弱分类器。

Adaboost模型的决策边界比单层决策树的决策边界要复杂的多。也就是说,Adaboost试图用增加模型复杂度而降低偏差的方式去减少总误差,但是过程中引入了方差,可能出现国拟合,因此在训练集和测试集之间的性能存在较大的差距,这就简单地回答的刚刚问题。值的注意的是:与单个分类器相比,Adaboost等Boosting模型增加了计算的复杂度,在实践中需要仔细思考是否愿意为预测性能的相对改善而增加计算成本,而且Boosting方式无法做到现在流行的并行计算的方式进行训练,因为每一步迭代都要基于上一部的基本分类器。
信息增益ID3算法
ID3 使用的分类标准是信息增益,它表示得知特征 A 的信息而使得样本集合不确定性减少的程度。



本文探讨了树模型(如决策树、bagging、Boosting,包括Adaboost、CART、GBDT、Xgboost和Catboost)在IT技术中的应用,重点介绍了如何使用pyspark实现GBDT模型,包括训练、评估和预测,以及决策树剪枝和类别型特征处理。
最低0.47元/天 解锁文章
2107

被折叠的 条评论
为什么被折叠?



