- 学习知识点概要
1. 什么是XGBoost
2. 如何用XGBoost实现分类
- 学习内容
1.XGBoost
对GBDT算法的整合包,并行运行决策树,鲁棒性强
XGBoost的主要缺点:
- 相对于深度学习模型无法对时空位置建模,不能很好地捕获图像、语音、文本等高维数据。
- 在拥有海量训练数据,并能找到合适的深度学习模型时,深度学习的精度可以遥遥领先XGBoost。
这里特别注意其在特征工程中也有很大作用
2.分类
填补缺失值
对离散变量编码[0,len(X)-1],这里将地区转化为数字表示
metircs 用到了混淆矩阵,热力图来表示
3.特征筛选
sns.barplot(y=data_features_part.columns, x=clf.feature_importances_)

我们还可以使用XGBoost中的下列重要属性来评估特征的重要性。
- weight:是以特征用到的次数来评价
- gain:当利用特征做划分的时候的评价基尼指数
- cover:利用一个覆盖样本的指标二阶导数(具体原理不清楚有待探究)平均值来划分。
- total_gain:总基尼指数
- total_cover:总覆盖
4.参数选择
XGBoost中包括但不限于下列对模型影响较大的参数:
- learning_rate: 有时也叫作eta,

这篇博客详细介绍了XGBoost算法,包括其作为GBDT的集成优化、分类应用,以及特征筛选和参数选择。重点讨论了learning_rate、subsample、colsample_bytree和max_depth等关键参数对模型性能的影响,并提到了特征重要性的评估方法。同时,博主分享了在处理不平衡数据和特征工程中的实践经验,最后提出对调参和特征工程的深入学习需求。
最低0.47元/天 解锁文章
853

被折叠的 条评论
为什么被折叠?



