1. 这是一个典型的二分类有监督学习问题,目的是为了预测贷款申请人是否可能违约。
2. 评价二分类模型一般使用的是AUC值,也就是ROC曲线下方的面积。
ROC曲线的纵轴代表的是sensitivity, 即True Positive Rate,横轴代表的是1 - specificity, 即1 - True Negative Rate。
AUC取值越大,说明二分类模型的效果越好。
代码如下:
1. 加载包:
# numpy和pandas是为了基本的数据清洗
import numpy as np
import pandas as pd
# LabelEncoder是为了处理离散型变量
from sklearn.preprocessing import LabelEncoder
import os
# matplotlib与seaborn是为了作图
import matplotlib.pyplot as plt
import seaborn as sns
2. 读取数据:
# 读取训练集数据
app_train = pd.read_csv("datasets/application_train.csv")
print('Training data shape: ', app_train.shape)
app_train.head()
# 读取测试集数据