XGBoost原理及使用

最新推荐文章于 2025-06-12 13:20:20 发布

原创

最新推荐文章于 2025-06-12 13:20:20 发布 · 824 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#python #算法 #机器学习

1、XGBoost算法原理：

关于XGBoost算法的原理部分，有兴趣的可以去看XGBoost的论文和陈天奇的PPT。

对英文有障碍的朋友可以去看刘建平博客总结的非常好。

2、XGBoost库比较：

XGBoost有2种Python接口风格。一种是XGBoost自带的原生Python API接口，另一种是sklearn风格的API接口，两者的实现是基本一样的，仅仅有细微的API使用的不同，主要体现在参数命名上，以及数据集的初始化上面。

xgboost库要求我们必须要提供适合的Scipy环境，如果你是使用anaconda安装的Python，你的Scipy环境应该是没有什么问题。

#windows安装
pip install xgboost #安装xgboost库
pip install --upgrade xgboost #更新xgboost库

#导入库
import xgboost as xgb

现在，我们有两种方式可以来使用我们的xgboost库。

第一种方式，是直接使用xgboost库自己的建模流程。
在这里插入图片描述

DMatrix

xgboost.DMatrix(data, label=None, weight=None, base_margin=None, missing=None, silent=False, feature_names=None, feature_types=None, nthread=None)

params

params {
   
   eta, gamma, max_depth, min_child_weight, max_delta_step, subsample, colsample_bytree,
colsample_bylevel, colsample_bynode, lambda, alpha, tree_method string,</

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

不会写作文的李华

关注关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

XGBoost三部曲：XGBoost原理

阿黎逸阳的博客

07-13

167

一文弄懂xgboost原理

【机器学习算法】XGBoost原理

weixin_51908696的博客

11-30

1965

的方式：选取一定的特征分裂，每一个弱学习器选取子特征集，例如从原有特征选择80%的特征，而弱学习器的每一个结点也可以在当前树下的子特征集重新随机选取，也可以全部使用进行遍历。的方式：对特征的值进行分桶，例如某一特征的值为0-9，分为五个桶只需要遍历五次，大大增加运算效率，桶数越大，与精确贪心算法的越接近，当每个桶只有一个样本时，即为精确贪心算法。，进一步划分的叶子节点数目为2，假设划分后的左子结点的样本二阶导之和为。损失减少，则表明当前分裂work，记录当前分裂特征和阈值，表示当前弱学习器的叶子节点。

参与评论您还未登录，请先登录后发表或查看评论

XGBoost算法模型与使用

weixin_41767872的博客

01-10

1327

XGBoost 非常重要，尤其在分类、回归和排名问题上表现卓越。其实际使用场景包括金融风控、医学诊断、工业制造和广告点击率预测等领域。XGBoost以其高效的性能和鲁棒性，成为许多数据科学竞赛和实际项目中的首选算法，极大提高模型准确性并降低过拟合风险。根据业务逻辑，可以使用其他自定义的方法来将非数值型特征转换为数值型特征。在实际应用中，可以根据数据的性质和问题的要求选择合适的方法。同时，建议使用交叉验证等技术来评估不同的编码方式对模型性能的影响。

大杀器xgboost指南

Bryan__的专栏

07-28

3万+

之前做了一个视频，从基础的决策树到xgboost，再到代码实现，以及python接口，有兴趣的可以去看看https://class.pkbigdata.com/#/classDetail/forum/5本文不做深入探讨，仅供自己备忘原文：http://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboo...

XGBoost算法原理及Python实现

最新发布

weixin_40335445的博客

06-12

XGBoost 是一种基于梯度提升框架的机器学习算法，它通过迭代地训练一系列决策树来构建模型。核心思想是通过不断地在已有模型的基础上，拟合负梯度方向的残差（真实值与预测值的差）来构建新的弱学习器，达到逐步优化模型的目的。XGBoost 在构建决策树时，利用了二阶导数信息。在损失函数的优化过程中，不仅考虑了一阶导数（梯度），还引入了二阶导数（海森矩阵），这使得算法能够更精确地找到损失函数的最优解，加速模型的收敛速度，同时提高模型的泛化能力。

xgboost: 速度快效果好的 boosting 模型

hqr20627的博客

09-25

923

xgboost: 速度快效果好的 boosting 模型何通关键词：boosting; Gradient Boosting Machine; xgboost; 数据建模预测本文作者：何通，SupStat Inc(总部在纽约，中国分部为北京数博思达信息科技有限公司）数据科学家，加拿大 Simon Fraser University 计算机学院研究生，研究兴趣为数据挖掘和生物信息学

XGBoost（极限梯度提升）

sikh_0529的博客

09-12

1万+

XGBoost 是一个优化的分布式梯度提升库，旨在、和。框架下实现机器学习算法。XGBoost 提供了一种并行树提升（也称为 GBDT、GBM），可以快速准确地解决许多数据科学问题。相同的代码在主要的分布式环境（Kubernetes、Hadoop、SGE、MPI、Dask）上运行，可以解决数十亿个示例之外的问题。XGBoost 代表“Extreme Gradient Boosting”，其中“Gradient Boosting”一词源自 Friedman 的论文。

XGBoost的介绍

Despicable_Me的博客

06-08

6535

XGBoost（eXtreme Gradient Boosting）是一种基于梯度提升树的机器学习算法，它在解决分类和回归问题上表现出色。它是由陈天奇在2014年开发的，如今已成为机器学习领域中最流行和强大的算法之一。XGBoost结合了梯度提升框架和决策树模型，通过迭代地训练一系列的决策树来逐步改进预测性能。它的目标是优化损失函数，使得预测值与实际值之间的误差最小化。

集成学习之随机森林、Adaboost、Gradient Boosting、XGBoost原理及使用

01-12

1300

Bagging是并行式集成学习最著名的代表，它是基于自助采样法 (bootstrap sampling)给定包含m个样本的数据集，先随机取出一个样本放入采样集中并记录，再把该样本放回初始数据集，使得下次采样时该样本仍有可能被选中，这样，经过m次随机采样操作，我们得到含m个样本的采样集，初始训练集中有的样本在采样集里多次出现，有的则从未出现（平均37%没有取到）。** 带外数据OOB（Out of Bag）**

XGBoost原理解析.pdf

05-28

在分割条件方面，XGBoost使用加权分位数法来搜索近似最优分裂点，这在保证算法精度的同时，也提高了计算速度。弱学习器的集成在XGBoost中是通过不断地添加树模型来完成的，每次添加都是为了纠正前一轮模型的残差。 ...

Xgboost优点

u012063773的博客

07-10

5236

本文转自：点击打开链接Gradient boosting Decision Tree(GBDT)　　GB算法中最典型的基学习器是决策树，尤其是CART，正如名字的含义，GBDT是GB和DT的结合。要注意的是这里的决策树是回归树，GBDT中的决策树是个弱模型，深度较小一般不会超过5，叶子节点的数量也不会超过10。Xgboost　　Xgboost是GB算法的高效实现，xgboost中的基学习器除了可以...

XGBoost简介

weixin_59295776的博客

09-03

1598

XGBoost简介 XGBoost的全称是eXtreme Gradient Boosting，原理与GBDT相同它是经过优化的分布式梯度提升库，旨在高效、灵活且可移植 XGBoost是大规模并行boosting tree的工具，比GBDT更高效 XGBoost与GBDT的区别区别一： XGBoost生成CART树考虑了树的复杂度， GBDT未考虑，GBDT在树的剪枝步骤中考虑了树的复杂度。区别二： XGBoost是拟合上一轮损失函数的二阶导展开，GBDT是拟合上一轮损失函数的一

XGBoost的两种使用方式（1. sklearnAPI的库 2. XGBoost的原生库）及其区别

Amanda_python的博客

03-02

5486

# 导入库文件和数据集 from sklearn.datasets import load_boston from sklearn.metrics import r2_score,mean_squared_error,mean_absolute_error,accuracy_score,precision_score, recall_score from sklearn.model_selection import train_test_split import math boston_data

xgboost中C-api使用方法

word_no_bug的博客

08-18

1382

xgboost中C-api使用方法 1.如果数据集在文件中可用，则可以使用XGDMatrixCreateFromFile将其加载到DMatrix对象中 DMatrixHandle data; // handle to DMatrix // Load the dat from file & store it in data variable of DMatrixHandle datatype safe_xgboost(XGDMatrixCreateFromFile("/path/to/file/fil

【机器学习】xgboost使用技巧

不可能打工的博客

08-12

316

sklearn api与原生api python下的xgboost有两套api，一套是原生api，一套是sklearn风格的api。两套api的逻辑还是区别较大的，但是考虑到使用习惯上的统一以及代码集成的统一管理，比较推荐sklearn api。快速上手，以分类为例： from xgboost import XGBClassifier as xgbc alg=xgbc() alg.fit(x_t...

xgboost 的安装

卡卡西的博客

10-08

262

这几天在参加CCF组织的比赛，因此需要使用到python下的xgboost库弄了好几天，终于完成了

XGBoost详解（原理篇）