GBDT:
GBDT是通过采用加法模型(基函数的线性组合),以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法。通过多轮迭代,每轮产生一个弱分类器,每个分类器在上一轮分类器的残差(这里的残差是当前模型的负梯度值)基础上进行训练。对弱分类器的要求一般是足够简单,并且是低方差和高偏差的,因为训练的过程就是通过降低偏差来不断提高分类器的精度。(弱分类器一般选择CART)
GBDT的优缺点 :
优点:精度高、能处理非线性数据、适合低维稠密数据、能处理多特征类型、模型可解释性好、不需要做特征的归一化、可以自动选择特征、能适应多种损失函数
缺点:不适合高维稀疏数据、不能并行处理、计算复杂度高
RandomForest:
提到随机森林,就不得不提Bagging,Bagging可以简单的理解为:放回抽样,多数表决(分类)或简单平均(回归),同时Bagging的基学习器之间属于并列生成,不存在强依赖关系。
Random Forest(随机森林)是Bagging的扩展变体,它在以决策树 为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机特征选择,因此可以概括RF包括四个部分:
1、随机选择样本(放回抽样)
2、随机选择特征
3、构建决策树
4、随机森林投票(平均)
随机选择样本和Bagging相同,随机选择特征是指在树的构建中,会从样本集的特征集合中随机选择部分特征,然后再从这个子集中选择最优的属 性用于划分,这种随机性导致随机森林的偏差会有稍微的增加(相比于单棵不随机树),但是由于随机森林的‘平均’特性,会使得它的方差减小,而且方差的减小补偿了偏差的增大,因此总体而言是更好的模型。
在构建决策树的时候,RF的每棵决策树都最大可能的进行生长而不进行剪枝;在对预测输出进行结合时,RF通常对分类问题使用简单投票法,回归任务使用简单平均法。
随机森林的优缺点:
优点:
1、在数据集上表现良好,两个随机性的引入(样本随机性和特征随机性),增