xgboost 中 model.predict 与 model.get_booster()预测结果为什么不一样呢?

本文探讨了xgboost中model.predict与model.get_booster().predict预测结果不一致的问题。原因在于model.predict在调用get_booster().predict前会使用DMatrix处理数据,包括设置缺失值,而直接调用get_booster().predict未处理缺失值。通过在DMatrix中设置缺失值后,两个方法的预测结果变得一致。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

xgb model.predict 与 model.get_booster() 方法预测结果为什么不一样呢?

  1. 亲测0.71版本训练出来的模型,用0.90版本的xgb预测,结果不一致
  2. 同一版本下model.get_booster().predict与model.predict预测结果为什么不一致呢?
import xgboost as xgb
from xgboost.sklearn import XGBRegressor
import xgboost
import pandas as pd
import numpy as np
from sklearn import datasets
from xgboost import DMatrix
boston_data = datasets
好的,下面是每一个函数方法的详细解释: 1. `def model_xgb(train, test):`:定义了一个名为 `model_xgb` 的函数,该函数接受两个参数 `train` 和 `test`。 2. `params = {...}`:定义了一个字典 `params`,包含了 XGBoost 模型的参数设置。 3. `dtrain = xgb.DMatrix(train.drop(['User_id', 'Coupon_id', 'Date_received', 'label'], axis=1), label=train['label'])`:将训练集数据转换为 DMatrix 格式,其中去掉了 `User_id`、`Coupon_id`、`Date_received` 和 `label` 列,并将 `label` 列作为标签。 4. `dtest = xgb.DMatrix(test.drop(['User_id', 'Coupon_id', 'Date_received'], axis=1))`:将测试集数据转换为 DMatrix 格式,其中去掉了 `User_id`、`Coupon_id` 和 `Date_received` 列。 5. `watchlist = [(dtrain, 'train')]`:定义了一个监控列表,用于监控训练过程中的性能。 6. `model = xgb.train(params, dtrain, num_boost_round=500, evals=watchlist)`:训练 XGBoost 模型,使用了上面定义的参数和监控列表。 7. `predict = model.predict(dtest)`:对测试集进行预测,得到预测结果。 8. `predict = pd.DataFrame(predict, columns=['prob'])`:将预测结果转换为 DataFrame 格式,并将列名设为 `prob`。 9. `result = pd.concat([test[['User_id', 'Coupon_id', 'Date_received']], predict], axis=1)`:将测试集的 `User_id`、`Coupon_id` 和 `Date_received` 列预测结果合并,得到最终结果。 10. `feat_importance = pd.DataFrame(columns=['feature_name', 'importance'])`:定义一个空的 DataFrame,用于存储特征重要性信息。 11. `feat_importance['feature_name'] = model.get_score().keys()`:将特征重要性信息中的特征名称取出来,并存储到 `feature_name` 列中。 12. `feat_importance['importance'] = model.get_score().values()`:将特征重要性信息中的特征重要性取出来,并存储到 `importance` 列中。 13. `feat_importance.sort_values(['importance'], ascending=False, inplace=True)`:按照特征重要性从大到小排序。 14. `return result, feat_importance`:返回预测结果和特征重要性信息。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值