Xgboost分类树参数详解

原创

已于 2022-07-22 19:45:23 修改 · 3.7k 阅读

45 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #Xgboost参数详解 #XGBClassifier参数 #算法参数

于 2021-09-18 19:35:57 首次发布

本文介绍梯度提升树模型的重要参数及其作用，包括模型参数如n_estimators、early_stopping_rounds等，常规参数如booster、verbosity等，以及学习任务参数如learning_rate、objective等，并解释了这些参数如何影响模型的性能。

文章目录

模型参数

n_estimators：
    总共迭代的次数，即决策树的个数
early_stopping_rounds：
    在验证集上，当连续n次迭代，分数没有提高后，提前终止训练。防止overfitting。
    在num_boost_round的轮训练中，如果过程中指标经过early_stopping_rounds轮还没有减少，那么就停止训练
max_depth：
    树的深度，默认值为6，典型值3-10。值越大，越容易过拟合；值越小，越容易欠拟合。
min_child_weight：
    默认值为1,。值越大，越容易欠拟合；值越小，越容易过拟合（值较大时，避免模型学习到局部的特殊样本）。
subsample：
    训练每棵树时，使用的数据占全部训练集的比例。默认值为1，典型值为0.5-1。防止overfitting。
colsample_bytree：
    训练每棵树时，使用的特征占全部特征的比例。默认值为1，典型值为0.5-1。防止overfitting。

常规参数

booster：
    gbtree 树模型做为基分类器（默认）
    gbliner 线性模型做为基分类器
silent：
    silent=0时，输出中间过程（默认）
    silent=1时，不输出中间过程
verbosity： 打印消息的详细程度
	有效值为0（静默），1（警告），2（信息），3（调试）
nthread：
    nthread=-1时，使用全部CPU进行并行运算（默认）
    nthread=1时，使用1个CPU进行运算。
scale_pos_weight：
    在二分类任务中，正样本的权重，当正负样本比例失衡时，设置正样本的权重，模型效果更好。例如，当正负样本比例为1:10时，scale_pos_weight=10。
    参数对多分类任务无用。

学习任务参数

learning_rate：
    学习率，控制每次迭代更新权重

最低0.47元/天解锁文章