项目介绍:原始数据中共有284807条数据,30个特征,其中正常交易数据为284315条,欺诈交易数据为492条,为典型的不平衡数据集。案例中采用xgboost算法,分别在原始样本和经过smote算法采样后的样本进行预测。其中xgboost使用gridsearchcv进行参数调优,鉴于调优时间过长,只对参数max_depth(树的深度)进行调优,并将调优后的最佳参数的模型对样本进行预测,对两种情况下的accuracy、f1-score、recall、precision和roc_auc_score进行比较。发现经过smote算法过采样后,f1-score和roc_auc_score得到明显提升。
相关参考:
1)关于非平衡样本数据的处理:https://www.zhihu.com/question/269698662/answer/352279936
2)关于smote算法的使用(使用Imblearn库): https://zhuanlan.zhihu.com/p/137826761
代码部分: