听过很多道理,依然过不好这一生——因为听到的不是真理;
听过很多真理,还是过不好这一生——因为没有行出来。
看过很多博客,依然搞不懂xgboost——因为看到的不是原汁原味的论文;
看过原汁原味的论文,还是搞不懂xgboost——因为没有写出来。
终于到了要写写xgboost的时候了。阅文无数之后,我决定还是回到最初的起点,认真咀嚼一下陈天奇博士的论文:
XGBoost: A Scalable Tree Boosting System
下面我就顺着论文的章节顺序,记录一下我的学习心得。
ABSTRACT
摘要一共就五句话:
第一句,抛砖。介绍提升树的高效和广泛应用。
第二句,引玉。引出state-of-the-art的主角——XGBoost。
第三句,创新之处(算法层面)。处理缺失值的方法,和加权分位略图(这名字难翻译)的近似算法。
第四句,重中之重(系统层面)。如何构建可扩展的提升树系统。
第五句,效果。处理大数据,使用小资源。
Keywords
Large-scale Machine Learning
1. INTRODUCTION
绪论一共就七段话:
第一段,机器学习在许多领域变得重要,成功应用的两个因素:有效的模型(捕捉复杂数据相关性)和可扩展的系统(处理大数据)。
第二段,梯度提升树算法在机器学习领域中闪闪发光,其变种LambdaMART算法也在排序问题中有最先进的表现。
第三段,