概论
弱分类器可以通过bagging和boosting转换成强分类器。随机森林是bagging的改进,通过有放回的随机采样,获得不同的样本数据,随机得到不同的决策树,各个决策树之间相互独立,通过投票选出最终结果。boosting是所有分类器加权求和预测最终结果,各个分类器相互不独立。
XGBoost推导
首先定义损失函数,常见的有均方误差和绝对值差:
XGBoost中,第i颗决策树依赖前i-1颗决策树加权求和而生成,表示为:。
再思考基本分类器:决策树。决策树的复杂程度可以用叶节点个数和叶节点权重来表示,为防止过拟合,引入惩罚系数γ和λ: