本文专辑: 茶桁的 AI 秘籍 - BI 篇

Hi,你好。我是茶桁。
那今天我们是来讲解另外两个Boosting的工具,首先是微软出品的LightGBM。
LightGBM
LightGBM 是微软提出来的, 是属于XGBoost的升级版,也曾经是Kaggle里面使用模型最多的机器学习的神器。当然,目前LightGBM 之外,BERT以及GPT都越来越受关注,但是LightGBM 这么久了,依然还是占据一席之地,依然还是某些性质及任务要求下的首选。
Light的概念就是轻和快,GBM 全称为 Gradient Boosting Machine,这个GBM就把它理解成就是GBDT,所以它其实就是轻量级的GBDT,而且是升级版本。所以我们看一看,它到底做了哪些轻量级的一些操作。
常用的机器学习算法,例如神经网络等算法,都可以以mini-batch的方式训练,训练数据的大小不会受到内存限制。
GBDT 在每一次迭代的时候,都需要遍历整个训练数据多次。如果把整个训练数据装进内存则会限制训练数据的大小,如果不装进内存,反复地读写训练数据又会消耗非常大的时间。对于工业级海量的数据,普通的 GBDT 算法是不能满足其需求的。
LightGBM 的提出是为了解决 GBDT 在海量数据遇到的问题,让 GBDT 可以更好更快地用于工业场景。
我们看整个的例子,先让大家有个直观的感受。
我找了四个数据集,然后用 XGBoost, XGBoost_approx 以及 LightGBM 来做一个比较. 其中 XGBoost_approx 是2016年左右提出来的 XGBoost 的近似版.

订阅专栏 解锁全文

968

被折叠的 条评论
为什么被折叠?



