《Python金融大数据风控建模实战》 第18章 模型融合

《Python金融大数据风控建模实战》 第18章 模型融合

本章引言

模型融合思想认为,在多个表现较好的模型中,每个模型的预测结果都有一定的参考价值,并且每个模型在建模时考虑的策略也各有差异,如果能综合多个模型的优点,则最终的结果可能会更好。
常用的方式为等权重加和,即每个模型的权重都是相同的。对于分类问题可以采用投票表决的方法将相对多的结果作为最终的决策结果;对于回归问题,可以采用求平均值的方式将均值作为最终的预测结果。
另一种方法是给每个模型以不同的权重,这种方法假设大多数模型表现较好,部分模型表现较差,此时可以给表现好的模型更大的权重,给表现不好的模型给予更小的权重,而决策过程与等权重加和的方式一致。另外对于分类问题尽量给出概率输出,对概率进行加权平均,然后再通过sigmoid函数得到标签预测结果。通常,非等权重加权的办法应用更广泛一些。
常用的模型融合办法有Blending方法和Stacking方法。与随机森林等集成学习相比,模型融合方法可以更加灵活地采用不同类的模型进行组合,从而得到组合模型,即可以采用不同的基学习器,吸收不同类模型的优点而得到最终的组合模型。

Python代码实现及注释

# 19章:模型融合blending

import os
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
import variable_encode as var_encode
from sklearn.metrics import confusion_matrix,recall_score, auc, roc_curve,precision_score,accuracy_score
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier
import matplotlib.pyplot as plt
import matplotlib
matplotlib.rcParams['font.sans-serif']=['SimHei']   # 用黑体显示中文
matplotlib.rcParams['axes.unicode_minus']=False     # 正常显示负号
import warnings
warnings.filterwarnings("ignore") ##忽略警告

##数据读取
def data_read(data_path,file_name):
    df = pd.read_csv( os.path.join(data_path, file_name), delim_whitespace = True, header = None )
    ##变量重命名
    columns = ['status_account','duration','credit_history','purpose', 'amount',
               'svaing_account', 'present_emp', 'income_rate', 'personal_status',
               'other_debtors', 'residence_info', 'property', 'age',
               'inst_plans', 'housing', 'num_credits',
               'job', 'dependents', 'telephone', 'foreign_worker', 'target']
    df.columns = columns
    ##将标签变量由状态1,2转为0,1;0表示好用户,1表示坏用户
    df.target = df.target - 1
      ##数据分为data_train和 data_test两部分,训练集用于得到编码函数,验证集用已知的编码规则对验证集编码
    data_train, data_test = train_test_split(df, test_size=0.2, random_state=100,stratify=df.target)
    return data_train, data_test
##离散变量与连续变量区分   
def category_continue_separation(df,feature_names):
    categorical_var = []
    numerical_var = []
    if 'target' in feature_names:
        feature_names.remove('target')
    ##先判断类型,如果是int或float就直接作为连续变量
    numerical_var = list(df[feature_names].select_dtypes(include=['int','float','int32','float32','int64','float64']).columns.values)
    categorical_var = [x for x in feature_names if x not in numerical_var]
    return categorical_var,numerical_var
if __name__ == '__main__':
    path = 'D:\\code\\chapter18'
    data_path = os.path.join(path ,'data')
    file_name = 'german.csv'
    ##读取数据
    data_train, data_test = data_read(data_path,file_name)
    sum(data_train.target ==0)
    data_train.target.sum()
    ##区分离散变量与连续变量
    feature_names = list(data_train.columns)
    feature_names.remove('target')
    categorical_var,numerical_var = category_continue_separation(data_train,feature_names)
    
    ###离散变量直接WOE编码
    var_all_bin = list(data_train.columns)
    var_all_bin.remove('target')
    ##训练集WOE编码
    df_train_woe, dict_woe_map, dict_iv_values ,var_woe_name = var_encode.woe_encode(data_train,data_path,categorical_var, data_train.target,'dict_woe_map', flag='train')
    ##测试集WOE编码
    df_test_woe, var_woe_name = var_encode.woe_encode(data_test,data_path,categorical_var, data_test.target, 'dict_woe_map',flag='test')
    
    #####连续变量缺失值做填补
    for i in numerical_var:
        if sum(data_train[i].isnull()) >0:
            data_train[i].fillna(data_train[i].mean(),inplace=True)
        if sum(data_test[i].isnull()) >0:
            data_test[i].fillna(data_test[i].mean(),inplace=True)

    ###组成分箱后的训练集与测试集
    data_train.reset_index(drop=True,inplace=True)
    data_test.reset_index(drop=True,inplace=True)
    var_1 = numerical_var
    var_1.append(
### 关于金融大数据建模实训课程资料教程 #### 1. 模型发展过程概述 在构建金融模型的过程中,经历了一个逐步优化的过程。最初的数据样本较少,特征较为粗糙,所使用的模型也相对简单;随着业务的发展和技术的进步,逐渐积累了更多的数据样本,特征提取变得更加精细,模型复杂度增加,最终实现了更好的预测效果[^1]。 #### 2. 特征工程与规则制定 对于简单的规则而言,通常基于领域专家的经验来定义;而对于更为复杂的决策逻辑,则依赖机器学习算法通过大量历史案例的学习来进行自动化生成。完成特征工程之后,可以选择不同的方法论如评分卡或是先进的集成学习框架(例如XGBoost)来进行险评估,并据此设置合理的审批标准[^2]。 #### 3. 模型开发周期管理 在整个项目生命周期内,需要严格遵循既定的时间表推进各项工作任务,包括但不限于:确定具体的技术路线图、规划详细的实施步骤、定期汇报阶段性成果以及及时调整策略以应对可能出现的问题。此外,在每次迭代过程中都应记录下重要的发现和改进建议以便后续参考[^3]。 #### 4. 平台架构设计考量 考虑到实际应用场景中的灵活性需求,体系应当具备良好的开放性和扩展能力。无论是来自内部还是外部渠道提交来的信贷请求都能被有效地纳入统一的险管理体系之中。当新的申请进入系统时,会触发一系列预设的工作流节点按照预定程序依次执行相应的审核操作直至得出最后结论[^4]。 ```python # Python代码片段展示如何加载并初步探索一份CSV格式的贷款申请人信息表格 import pandas as pd df = pd.read_csv('loan_applications.csv') print(df.head()) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值