Porto Seguro’s Safe Driver Prediction是一道回归预测题,参赛者需要根据数据给出某个保险实例是否会出发赔款的概率。该题有5000+人参加,近期也结赛了。最终我的排名1000+,离前20%只差一点点,有些可惜。不过这一次比赛中还是学到了很多东西。列出参考的notebook链接:
EDA:
Interactive Porto Insights - A Plot.ly Tutorial | Kaggle
该kaggler使用了stacking的方法。第一层模型使用了调参过的三个lgb(lightGBM)模型,第二层使用了logisticRegression进行拟合:
Simple Stacker LB 0.284 | Kaggle
Kaggle机器学习之模型融合(stacking)心得
本次比赛采用了gini系数作为评测指标。事实证明,在比赛中理解评测指标的原理是十分重要的,它能作为模型优化方向的重要参考。gini系数的详细解释:
Gini Coefficient - An Intuitive Explanation | Kaggle
基尼系数如何计算? - 知乎
本

本文分享了作者参与kaggle的Porto Seguro's Safe Driver Prediction比赛的经历,包括使用xgboost模型,面对类别不平衡问题的解决策略,以及对gini系数的理解。虽然最终排名遗憾未进入前20%,但作者从中学到模型融合、参数调优和EDA等技巧,并总结了比赛中的教训,如重视本地交叉验证和避免过拟合。
最低0.47元/天 解锁文章
8980

被折叠的 条评论
为什么被折叠?



