目标:信用评分,对个人借贷进行风险评估。
一、数据预处理
导入数据
| 自变量-连续型 |
V2,V5,V8,V11,V13,V16,V18 |
| 自变量-分类型 |
V1,V3,V4,V6,V7,V9,V10,V12,V14,V15,V17,V19,V20 |
| 因变量y |
V21 |
| 变量释义 |
https://archive.ics.uci.edu/ml/datasets/Statlog+(German+Credit+Data) |
* 数据下载见:变量释义中的链接
R程序:
| rawdata = read.table("D:/personal/knowledge/dataMining/dataset/german/german.data",header=F) rawdata$y <- as.factor(rawdata$V21) rawdata$V21 <- NULL str(rawdata) |
数据准备
| 训练数据 |
从总样本中抽样600条 |
| 验证数据 |
剩余的400条 |
R程序:
| trainIdx <- sample(nrow(rawdata), round(0.6*nrow(rawdata))) traindata <- rawdata[trainIdx,] validdata <- rawdata[-trainIdx,] |
1、数据清洗(data cleaning)
(1)缺失值处理(missingdata processing)
无缺失值。
(2)连续数据离散化(data discretization)
使用WoE进行离散化处理,见建模阶段处理。
(3)去噪声(noisy dataprocessing)
(未有时间研究)
(4)去异常值(outlierprocessing)
?
(5)共线性变量处理(pairwisecorrelations processing)
VIF (未有时间研究)
2、数据集成(data integration)
单一数据来源,数据结构也一致。无需再集成。
3、数据变换(data transformation)
(1)规范化处理
使用WoE进行离散化处理,见建模阶段处理。
二、模型选择
1、GLM-logistic回归(GLM logistic regression)
(1)WoE建模(Modeling)
我们结合使用信用评分卡中的WoE(Weight of Evidence证据权重)对连续型变量进行离散化处理。
R程序:
| woemodel <- woe(y~., data = traindata, zeroadj=0.5, appont = TRUE) # 需安装klaR包,install.packages("klaR") |
(2)IV检验(Examine)
IV(Information Value 信息价值

本文介绍了使用WoE(证据权重)进行数据预处理和建模,以进行信用评分和风险评估。在Logistic回归模型中,通过IV检验筛选变量,最终通过逐步回归确定了关键影响因素,包括V15和V20。文章还提及了模型验证和Scorecards构建,但具体细节未展开。
最低0.47元/天 解锁文章
3172

被折叠的 条评论
为什么被折叠?



