机器学习GBDT, XGBoost, LightGBM对比

最新推荐文章于 2025-04-22 23:55:21 发布

弎见

最新推荐文章于 2025-04-22 23:55:21 发布

阅读量2.3k

点赞数 1

分类专栏：机器学习进阶文章标签：机器学习 python 算法决策树 boost

本文链接：https://blog.youkuaiyun.com/sanjianjixiang/article/details/103554008

版权

本文对比了三种梯度提升算法：GBDT、XGBoost和LightGBM。GBDT通过学习残差来构建决策树；XGBoost在剪枝和正则项上更优，支持多种损失函数；LightGBM在速度、内存使用和准确性上具有优势，采用leaf-wise生长策略，并支持直接使用category特征。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一. 梯度提升决策树GBDT

GBDT(Gradient Boosting Decision Tree)的核心在于: 每一棵树学的是之前所有树结论和的残差(负梯度)，这个残差就是一个加预测值后能得真实值的累加量。

在分类问题中，GBDT的损失函数跟逻辑回归一样，采用的对数似然函数。

在回归问题中，GBDT采用最小化误差平方(ls)。在每一个叶子节点都会得到一个预测值，该预测值等于属于这个节点的所有label的均值。分枝时穷举每一个feature的每个阈值找最好的分割点，衡量的标准就是用最小化误差平方。

import gzip
import pickle as pkl
from sklearn.model_selection import train_test_split

def load_data(path):
    f = gzip.open(path, 'rb')
    try:
        train_set, valid_set, test_set = pkl.load(f, encoding='latin1') #python3
    except:
        train_set, valid_set, test_set = pkl.load(f) #python2
    f.close()
    return train_set,valid_set,test_set
path = 'mnist.pkl.gz'
train_set,valid_set,test_set = load_data(path)

Xtrain,_,ytrain,_ = train_test_split(train_set[0], train_set[1], test_size=0.9)
Xtest,_,ytest,_ = train_test_split(test_set[0], test_set[1], test_size=0.9)
print(Xtrain.shape, ytrain.shape, Xtest.shape, ytest.shape)

(5000, 784) (5000,) (1000, 784) (1000,)

from sklearn.ensemble import GradientBoostingClassifier
import numpy as np
import time
from sklearn.metrics import mean_squared_error

gbc = GradientBoosetingClassifier(n_estimators=10, learning_rate=0.1, max_depth=3)
start_time = time.time()
gbc.fit(Xtrain, ytrain)
end_time = time.time()
print('The training time = {}'.format(end_time - start_time))

gbc_pred = gbc.predict(Xtest)
gb

最低0.47元/天解锁文章