鱼佬：百行代码入手数据挖掘赛！-优快云博客

本文介绍了如何使用LightGBM作为基础模型参赛科大讯飞xDatawhale贷款违约预测挑战赛，提供百行代码Baseline并讨论了特征工程、参数调优、模型选择和融合策略。通过特征工程、模型优化和策略升级，助力读者在竞赛中取得更高排名。

↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习，不错过

Datawhale干货

作者：鱼佬，武汉大学，Datawhale成员

本实践以科大讯飞xDatawhale联合举办的数据挖掘赛为例，给出了百行代码Baseline，帮助学习者更好地结合赛事实践。同时，在如何提分上进行了详细解读，以便于大家进阶学习。

数据及背景

给定实际业务中借款人信息，邀请大家建立风险识别模型，预测可能拖欠的借款人。

实践&数据下载地址：https://challenge.xfyun.cn/topic/info?type=car-loan&ch=dw-sq-1

实践代码

Baseline采用LightGBM模型，进行了必要的注释和代码实现，分数为0.58左右。

## 导入第三方包
import pandas as pd
import numpy as np
import lightgbm as lgb

from sklearn.model_selection import KFold
from sklearn.metrics import f1_score, roc_auc_score

import warnings
warnings.filterwarnings('ignore')


## 读取数据集，具体下载方式可见操作手册
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')
sample_submit = pd.read_csv('sample_submit.csv')


## 训练数据及测试数据准备
all_cols = [f for f in train.columns if f not in ['customer_id','loan_default']]

x_train = train[all_cols]
x_test = test[all_cols]
y_train = train['loan_default']


## 作为baseline部分仅使用经典的LightGBM作为训练模型，我们还能尝试XGBoost、CatBoost和NN（神经网络）
def cv_model(clf, train_x, train_y, test_x, clf_name='lgb'):
    folds = 5
    seed = 2021
    kf = KFold(n_splits=folds, s