XGboost(extreme gradient boosting):高效实现了GBDT算法并进行了算法和工程上的许多改进。
XGboost的思路:
目标:建立k个回归树,使得树群的预测尽量接近真实值(准确率)而且有尽量大的泛化能力。
目标函数:
i表示第i个样本,表示第i个样本的预测误差,误差越小越好,
表示树的复杂度的函数,越小复杂度越低,泛化能力越强
T:叶子的个数
:w的L2模平方
目标要求预测尽量小,叶子节点尽量少,节点数值尽量不极端,回归树的参数(1)选取哪个特征分裂节点(2)节点的预测值。间接解决这两个参数的方法:贪心策略+最优化(二次最优化)
(1)选取哪个特征分裂节点:最简单的是枚举,选择loss function效果最好的那个
(2)确立节点的w以及最小的loss function,采用二次函数的求最值
步骤:选择一个feature分裂,计算loss function最小值,然后再选一个feature分列,又得到一个loss function最小值,枚举完成后,找一个效果最好的,把树分裂,在分裂的时候,每次节点分裂,loss function被影响的只有这个节点的样本,因而每次分裂,计算分裂的增益只需要关注打算分裂的那个节点的样本。接下来,继续分裂,按照上述方法,形成一棵树,再形成一棵树,每次在上一次的预测基础上取最优进一步分裂/建树。
停止条件:
①当引入的分裂带来的增益小于一个阈值的时候,可以剪掉这个分裂,所以并不是每一次分裂lossfunction整体都会增加的,有点预剪枝的意思,阈值参数为正则项里叶子节点数T的系数。
②当数达到最大深度时则停止建立决策树,设置一个超参数max_depth,树太深很容易出现过拟合。
③当样本权重和小于设定阈值时则停止建树,一个叶子节点样本太少时,终止,避免过拟合。