1. 说明
官方文献说明,想深入研究的可以戳进去进一步学习
lightGBM是一个基于树模型的分布式Boosting算法,该算法是有微软开源贡献,说到tree-based模型一般都会想到XGBOOST算法,毕竟也是曾经的大杀器,那下面就把这两个算法进行一些对比。
2.Xgboost的优缺点
优点:(不详细说了,默认有树模型基础)
- 1.Xgboost利用的二阶梯度,相对于lightGBM在进行节点划分的时候,会有更高的精度
- 2.利用局部近似算法,对分裂节点的贪心算法进行优化,取适当的收益时,可以提高算法的性能和训练速度。
- 3.在损失函数中加入L1和L2正则化,降低模型的复杂度,提高模型的适用性,鲁棒性。
- 4.提供并行计算能力,主要是在树节点求不同的候选的分裂点的Gain Infomation(分裂后,损失函数的差值)。
- 5.Tree Shrinkage,column subsampling等不同的处理细节。
缺点: - 1.需要对特征值进行预排序,这样会消耗很多的内存空间。(2 *data * features,索引和值)
- 2.数据分割点上,由于xgboost对不同的特征进行了预排序,所以不同的特征的排序顺序是不同的,所以在分割时,要对每个特征的每个值进行单独的分割,遍历次数为data * features,以此将所有的数据分配到左右子支。
- 3.尽管使用了局部近似算法,但是分割的粒度依然很细
- 4.由于做了预排序的处理,在寻找特征分裂点是(level - wise),会产生大量的cache随机访问。
3.lightGBM相应的改进
- 1.LightGBM基于histogram算法代替pre-sorted所构建的数据结构,利用histogram后,会有很多有用的tricks。例如histogram做差,提高了cache命中率(主要是因为使用了leaf-wise)。
- 2.在机器学习当中,我们面对大数据量时候都会使用采样的方式(根据样本权值)来提高训练速度。又或者在训练的时候赋予样本权值来关于于某一类样本(如Adaboost)。LightGBM利用了GOSS来做采样算法。
- 3.由于histogram算法对稀疏数据的处理时间复杂度没有pre-sorted好。因为histogram并不管特征值是否为0。因此我们采用了EFB来预处理稀疏数据。
3.1 Histogram Algorithm(直方图)
相对于pre-sorted算法,它的内存空间需要相对小很多。因为pre-sorted算法需要保存起来每一个特征的排序结构,所以其需要的内存大小是2 * #data * #feature * 4Bytes(而histogram只需保存离散值bin value(EFB会谈到bin)而且我们不需要原始的feature value,所以占用的内存大小为:#data * # feature * 1Byte,因为离散值bin value使用uint8_t已经足够了。另外对于求子节点相应的feature histogram时,我们只需构造一个子节点的fe