最近又给bagging和boosting绕迷糊了,再来复习下,首先bagging聚焦方差的减小,boosting聚焦偏差的减小。然后bagging采用了自助采样bootstrap和投票的方法进行集成学习,但是boosting类似于以前的错题本,类似于三个臭皮匠赛过诸葛亮,聚焦错误给“好”分类器更大的权重,致力于减小错误也就是降低偏差。
xgboost的本质还是boosting,但是优点是计算快并且可以并行计算,其很重要的一点就是创造性的用泰勒级数近似损失函数,并且只取泰勒级数的前两项,从而降低目标函数的优化计算量。
XGBoost具体的推演我参照教程手写了一遍,加深印象,虽然字比较丑,不过好记性不如烂笔头。
第一步:构造目标函数:
第二步:叠加式的训练(Additive Training)
第三步:使用泰勒级数近似目标函数