1、算法原理
GBDT
2、损失函数
原始论文 公式2(损失函数+正则化项)
3、分裂结点算法
暴力算法:原始论文 算法1(对每个特征枚举所有可能值)
近似算法:原始论文 算法2(对每个特征确定若干splitting point,枚举所有的splitting point)
4、正则化
损失函数正则化项
训练决策树时选择部分样本/特征
5、对缺失值处理
原始论文 算法3(分别枚举将缺失值放入左右两侧的情况)
6、优缺点
优点:效果好,能并行
7、应用场景
常见分类问题、回归问题均可使用
Kaggle竞赛
8、sklearn参数
class xgboost.XGBClassifier(max_depth=3, learning_rate=0.1, n_estimators=100, verbosity=1, silent=None, objective='binary:logistic', booster='gbtree', n_jobs=1, nthread=None, gamma=0, min_child_weight=1, max_delta_step=0, subsample=1, colsample_bytree=1, colsample_bylevel=1, colsample_bynode=1, reg_alpha=0, reg_lambda=1, scale_pos_weight=1, base_score=0.5, random_state=0, seed=None, missing=None, **kwargs)