上手机器学习系列-第6篇（上）-LightGBM编码

最新推荐文章于 2025-05-18 20:57:06 发布

原创

最新推荐文章于 2025-05-18 20:57:06 发布 · 935 阅读

3 ·

CC 4.0 BY-SA版权

本文介绍了如何在Python中安装和使用LightGBM，包括依赖问题解决、sklearn接口的应用，并对比了与XGBoost的区别。通过实例展示了从数据读取、训练到预测的核心流程，强调了特征工程在实际应用中的重要性。最后，预告下篇将探讨LightGBM的算法原理。

LightGBM

相比于XGBoost，LightGBM官网的文档、Github写得都不敢让人恭维（缺少细节、案例语焉不详）。因此本篇从实际使用角度来介绍用法，就显得更有意义了。

安装

LightGBM号称的速度快不是没有成本的，它底层依赖了一些并行处理的库文件，因此在安装的时候会遇到各种问题。笔者已经单独写了一篇短文分享，详见本人优快云博客《Mac环境下安装LightGBM的苦难记》。

假设你已经排除万难，成功为python安装了LightGBM，我们来看看怎么使用。

Python + LightGBM

类似于XGBoost，LightGBM也有自己的一套读写数据、训练、预测的接口API，但是我们还是更习惯用sklearn那一套接口来操作数据，还好它也提供了同样的接口封装（源代码可以参考（https://github.com/microsoft/LightGBM/blob/master/python-package/lightgbm/sklearn.py）。

接照sklearn那套接口，我们可以猜想核心的流程是：

读入数据 -> 拆分训练集/测试集 -> .fit -> .predict -> score

我们先给出一个完整的代码：

import lightgbm as lgb

#用一个我们熟悉的数据来实践
from sklearn.datasets import load_breast_cancer

X,y = load_breast_cancer(return_X_y=True)
len(X),len(y)

#拆分数据
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state = 0)
len(X_train)

#创建lightgbm分类器实例
clf = lgb.LGBMClassifier(num_leaves=31,
                        learning_rate=0.05,
                        n_estimators=