xgboost的predict接口输出问题以及相关参数的探究(evals、evals_result、verbose_eval、pred_leaf、pred_contribs)、利用gbdt进行特征组合

原创

已于 2022-02-28 16:47:11 修改 · 6.4k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #python

于 2022-01-30 10:54:53 首次发布

本文深入探讨了XGBoost预测接口的使用方法，包括输出类别、叶子节点及特征贡献度等；并通过实例展示了训练过程中的参数调整技巧，如验证集评估与可视化输出；还解析了多分类任务中的内部实现原理，并介绍了如何利用XGBoost进行特征组合。

一、一直对xgboost的输出有些疑惑，这里记录一下

1.xgboost的predict接口输出问题（参数pred_leaf、pred_contribs）

2.训练过程中输出相关参数的探究(evals、evals_result、verbose_eval)

3.多分类内部原理探究（不涉及源码）

4.利用gbdt进行特征组合问题(gbdt+lr)

二、导入验证数据，验证问题

针对问题1

# 导入数据
import xgboost
from sklearn.datasets import load_iris(多分类), load_breast_cancer（二分类）
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.preprocessing import OneHotEncoder

# 多分类
iris_data = load_iris()
x = iris_data.data
y = iris_data.target  # 类别0、1、2

dtrain = xgboost.DMatrix(data=x, label=y, weight=None, missing=None)
params = {
   
   
    # General Parameters
    'booster': 'gbtree'
    #  Booster Parameters
    , 'eta': 0.3
    , 'gamma': 0
    , 'max_depth': 6
    # Task Parameters
    , 'objective': 'multi:softmax'
    , 'num_class': 3
}
xgb_model = xgboost.train(params=params, dtrain=dtrain, num_boost_round=3)