构建xgboost和lightgbm模型（某金融数据集）

最新推荐文章于 2025-10-13 16:05:55 发布

原创

最新推荐文章于 2025-10-13 16:05:55 发布 · 3.2k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

该博客介绍了如何在金融数据集上构建xgboost和lightgbm模型，从数据导入、理解到准备，再到模型建立和评估的详细步骤。文章还提供了相关安装教程链接。

导入各种包

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_auc_score,f1_score
from xgboost import XGBClassifier
from lightgbm import LGBMClassifier

导入数据

data=pd.read_csv('./data.csv',index_col=0,encoding='gbk')

数据理解

#单独提取出y列标签，和其余的88列标记为x
y=data['status']
X=data.drop('status',axis=1)
#X值的行列数，以及y的分布类型
print('X.shape:',X.shape)
print('y的分布:',y.value_counts()

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

憨宝宝

关注关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

xgboost 毒蘑菇mushroom数据集分类

小草的博客

06-15

8518

安装 xgboost pip3 install xgboost 毒蘑菇数据集 毒蘑菇数据集的描述参考： https://archive.ics.uci.edu/ml/datasets/Mushroom 毒蘑菇的特征描述如下 Attribute Information: 1. cap-shape: bell=b,conical=c,convex=x,flat=f, knobbed=k,sunken...

探索 XGBoost 与 LightGBM 的差异：哪个更适合你的项目？

long1973m的博客

08-30

1425

XGBoost和LightGBM是两种主流的梯度提升树算法，各有特点。XGBoost采用层级生长方式，适合小数据集和精细调优，但内存消耗较大。LightGBM采用叶子节点生长策略和直方图算法，在大数据集上训练更快、内存效率更高。实际测试显示，LightGBM在大规模数据上训练时间明显更短，而XGBoost在小数据集上可能精度更高。选择时需考虑数据规模：小数据选XGBoost，大数据选LightGBM，分类特征多时LightGBM更优。掌握两者的特性有助于在实际项目中做出最佳选择。

2 条评论您还未登录，请先登录后发表或查看评论

xgboost-数据集

03-26

xgboost源数据

xgboost训练数据集-数据集

03-30

xgboost训练数据集

LGBM（LightGBM）和DeepFM

最新发布

专注最新最热的AI知识学习，以实战方式总结心得。

10-13

416

LGBM（LightGBM）和DeepFM是机器学习，尤其是推荐系统、点击率预测等场景中两个非常重要且特点鲜明的模型。它们分别代表了梯度提升树模型和深度神经网络模型在处理结构化数据时的不同思路。下面这个表格可以让你快速把握它们的核心区别与联系。

XGboost数据比赛实战之调参篇(完整流程)

weixin_33828101的博客

03-28

1191

这一篇博客的内容是在上一篇博客Scikit中的特征选择，XGboost进行回归预测，模型优化的实战的基础上进行调参优化的，所以在阅读本篇博客之前，请先移步看一下上一篇文章。我前面所做的工作基本都是关于特征选择的，这里我想写的是关于XGBoost参数调整的一些小经验。之前我在网站上也看到很多相关的内容，基本是翻译自一篇英文的博客，更坑的是...

【Kay】机器学习之XGBoost——鸢尾花数据集

m0_54115636的博客

06-09

2907

精选资源

XGBoost与LightGBM文本分类源代码及数据集.zip

04-16

1、内容概要：本资源主要基于XGBoost与LightGBM实现文本分类，适用于初学者学习文本分类使用。 2、数据集为电商真实商品评论数据，主要包括训练集...5、源代码：lightGBM_model.py是基于lightGBM模型对文本进行分类。

精选资源

XGBoost+LightGBM+LSTM-光伏发电量预测包含比赛代码、数据、训练后的神经网络模型等

10-31

包含比赛代码、数据、训练后的神经网络模型等。在分析光伏发电原理的基础上，论证了辐照度...3.2 基于LightGBM与XGBoost的构建与调试 3.3 基于LSTM的模型构建与调试 3.4 模型融合与总结 4 总结与展望参考文献收起

精选资源

可直接运行，XGBoost与LightGBM文本分类源代码及数据集.zip

12-16

可直接运行， 1、内容概要：本资源主要基于XGBoost与LightGBM实现文本分类，适用于初学者学习文本分类使用。 2、数据集为电商真实商品评论数据，...5、源代码：lightGBM_model.py是基于lightGBM模型对文本进行分类。

用XGBoost迭代读取数据集

Datawhale

06-26

806

Datawhale干货来源：Coggle数据科学在大规模数据集进行读取进行训练的过程中，迭代读取数据集是一个非常合适的选择，在Pytorch中支持迭代读取的方式。接下来我们将介绍XGBoost的迭代读取的方式。内存数据读取classIterLoadForDMatrix(xgb.core.DataIter): def__init__(self,df=Non...

XGBoost代码附带示例和数据

06-14

该代码使用XGBoost进行分类预测，在python环境下进行操作，附带多个数据示例展示集相应的数据集，并进行不同算法对比

ML之xgboost：基于xgboost(5f-CrVa)算法对HiggsBoson数据集(Kaggle竞赛)训练(模型保存+可视化)实现二分类预测

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

06-04

9249

ML之xgboost：基于xgboost(5f-CrVa)算法对HiggsBoson数据集(Kaggle竞赛)训练(模型保存+可视化)实现二分类预测目录 数据集简介输出结果设计思路核心代码 数据集简介 Dataset之HiggsBoson：Higgs Boson(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略输出结...

XGBoost训练数据集解析及应用实战

weixin_30481539的博客

07-01

752

XGBoost是梯度提升决策树（GBDT）的一个高效实现，它广泛应用于各类数据科学竞赛和工业界。由于其出色的性能、良好的可扩展性和灵活性，XGBoost成为了许多机器学习工程师首选的算法。XGBoost，全称是“eXtreme Gradient Boosting”，它通过优化损失函数来连续添加树，同时利用已有的树进行预测的加法模型。XGBoost对正则化项进行了改进，不仅包括树的叶子节点数、树的深度，还包括了控制模型复杂度的正则化项，从而避免了模型过拟合。

ML之xgboost：利用xgboost算法(sklearn+3Split+调参曲线+EarlyStop)训练mushroom蘑菇数据集(22+1,6513+1611)来预测蘑菇是否毒性(二分类预测)

05-24

6711

ML之xgboost：利用xgboost算法(sklearn+3Spli+调参曲线+EarlyStop)训练mushroom蘑菇数据集(22+1,6513+1611)来预测蘑菇是否毒性(二分类预测) 导读利用xgboost算法(结合sklearn+3CrVa+调参曲线+EarlyStop)训练mushroom蘑菇数据集(22+1,6513+1611)实现预测某品种蘑菇是否有毒(...

ML之xgboost：基于xgboost(5f-CrVa)算法对HiggsBoson数据集(Kaggle竞赛)训练实现二分类预测(基于训练好的模型进行新数据预测)

06-04

8599

ML之xgboost：基于xgboost(5f-CrVa)算法对HiggsBoson数据集(Kaggle竞赛)训练实现二分类预测(基于训练好的模型进行新数据预测) 目录输出结果设计思路核心代码输出结果更新中…… 相关文章ML之xgboost：基于xgboost(5f-CrVa)算法对HiggsBoson数据集(Kaggle竞赛)训练(模型保...

xgboost训练鸢尾花数据集

JeitZz的博客

04-14

1233

from sklearn import datasets from sklearn.pipeline import Pipeline import pandas as pd from xgboost import XGBClassifier from nyoka import xgboost_to_pmml from sklearn.model_selection import train_test_split from sklearn.model_selection import cross_val_sc

ML之xgboost：利用xgboost算法(sklearn+7CrVa)训练mushroom蘑菇数据集(22+1,6513+1611)来预测蘑菇是否毒性(二分类预测)

05-25

8082

ML之xgboost：利用xgboost算法(sklearn+7CrVa)训练mushroom蘑菇数据集(22+1,6513+1611)来预测蘑菇是否毒性(二分类预测) 目录输出结果设计思路核心代码输出结果设计思路核心代码 kfold = StratifiedKFold(n_split...

【机器学习】基于天气数据集的XGBoost分类与预测

weixin_46249565的博客

01-19

3413

目录一、学习知识点概要二、学习内容代码1.导入库2.对离散变量进行编码3.利用 XGBoost 进行训练与测试4.利用 XGBoost 进行特征选择5.模型调参三、学习问题与解答四、学习思考与总结一、学习知识点概要首先，点击下载数据文件今天学习的是基于天气数据集的XGBoost分类实战。 XGBoost并不是一种模型，而是一个可供用户轻松解决分类、回归或排序问题的软件包。它内部实现了梯度提升树(GBDT)模型，并对模型中的算法进行了诸多优化，在取得高精度的同时又保持了极快的速度。二、学习内容首先，