《Python金融大数据风控建模实战》第17章集成学习-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_40844276/article/details/115280479

本文介绍了集成学习在金融大数据风控建模中的应用，通过Python实现包括随机森林、AdaBoost和梯度提升等算法。首先，数据预处理涉及变量重命名、WOE编码和缺失值填充。接着，使用GridSearchCV进行超参数优化，以提高模型性能。最后，对四种模型（随机森林、AdaBoost、GBDT和XGBoost）进行训练和评估，分析其预测效果，如召回率、精确率和AUC值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本章引言

集成学习旨在通过训练多个模型，扩展假设空间，进而逐步接近真实数据集中蕴含的规则。同时，多个训练模型同时陷入局部最小值的概率较低，保证了测试集可以得到相对较优的结果。
目前，集成学习大致可分为两种：并行的集成方法Bagging和串行的集成方法Boosting。并行的集成方法中，基学习器的构建是相互独立的，没有先后顺序，可以同时进行建模。而串行的集成方法中，各个基学习器之间有强烈的依赖关系，即后一个模型是在前一个模型的基础上建立的。集成学习的核心是优势互补，因此如何增加基学习器的独立性和多样性是集成学习的关键，不同的算法有不同的策略。

Python代码实现及注释

# 第17章：集成学习

import os
import sys
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
import variable_encode as var_encode
from sklearn.metrics import confusion_matrix,recall_score, auc, roc_curve,precision_score,accuracy_score
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import GradientBoostingClassifier
from xgboost import XGBClassifier
import matplotlib.pyplot as plt
import matplotlib
matplotlib.rcParams['font.sans-serif']=['SimHei']   
matplotlib.rcParams['axes.unicode_minus']=False  
import warnings
warnings.filterwarnings("ignore") ##忽略警告
##数据读取
def data_read(data_path,file_name):
    df = pd.read_csv( os.path.join(data_path, file_name), delim_whitespace = True, header = None )
    ##变量重命名
    columns = ['status_account','duration','credit_history','purpose', 'amount',
               'svaing_account', 'present_emp', 'income_rate', 'personal_status',
               'other_debtors', 'residence_info', 'property', 'age',
               'inst_plans', 'housing', 'num_credits',
               'job', 'dependents', 'telephone', 'foreign_worker', 'target']
    df.columns = columns
    ##将标签变量由状态1,2转为0,1;0表示好用户，1表示坏用户
    df.target = df.target - 1
      ##数据分为data_train和 data_test两部分，训练集用于得到编码函数，验证集用已知的编码规则对验证集编码
    data_train, data_test = train_test_split(df, test_size=0.2, random_state=0,stratify=df.target)
    return data_train, data_test
##离散变量与连续变量区分   
def category_continue_separation(df,feature_names):
    categorical_var = []
    numerical_var = []
    if 'target' in feature_names:
        feature_names.remove('target')
    ##先判断类型，如果是int或float就直接作为连续变量
    numerical_var = list(df[feature_names].select_dtypes(include=['int','float','int32','float32','int64','float64']).columns.values)
    categorical_var = [x for x in feature_names if x not in numerical_var]
    return categorical_var,numerical_var
if __name__ == '__main__':
    path = 'D:\\code\\chapter17'
    data_path = os.path.join(path ,'data')
    file_name = 'german.csv'
    ##读取数据
    data_train, data_test = data_read(data_path,file_name)
    sum(data_train.target ==0)
    data_train.target.sum()
    ##区分离散变量与连续变量
    feature_names = list(data_train.columns)
    feature_names.remove('target')
    categorical_var,numerical_var = category_continue_separation(data_train,feature_names)
    
    ###离散变量直接WOE编码
    var_all_bin = list(data_train.columns)
    var_all_bin.remove('target')
    ##训练集WOE编码
    df_train_woe, dict_woe_map, dict_iv_values ,var_woe_name = var_encode.woe_encode(data_train