模型构建——使用逻辑回归构建模型，lightGBM进行特征筛选

最新推荐文章于 2025-09-04 04:42:39 发布

原创

最新推荐文章于 2025-09-04 04:42:39 发布 · 1.7k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#逻辑回归 #算法 #机器学习

本文介绍了通过逻辑回归构建模型的过程，包括实验设计、样本设计和模型训练与评估。在模型构建中，逻辑回归用于预测违约概率，并通过lightGBM进行特征筛选，以提高模型的区分度和稳定性。最终，模型在测试集上的KS和AUC表现优秀，展示了模型的排序能力。

1、模型构建流程

1.1 实验设计

新的模型要跟原有方案对比，而且是通过实验证明，特别注意模型和策略不能同时调整。一般实验设计包含以下流程：
在这里插入图片描述

问题：业务稳定后，可以去掉人工审核吗？

答：不可以，一般模型上线后，高分段和低分段的表现较好，但中间段还是需要人工审核；而且即使模型完善后，我们只能减少人工审核，不可能完全舍弃人工审核。

1.2 样本设计

1.3 模型训练与评估

在进行模型选择与评估时，我们按照以下顺序进行模型评估：可解释性>稳定性>区分度。

区分度指标：AUC和KS
稳定性指标：PSI
AUC：ROC曲线下的面积，反映了模型输出的概率对好坏用户的排序能力，是模型区分度的平均状况。
KS：反映了好坏用户的分布的最大的差别，是模型区分度的最佳状况。

业务指标里，主要看通过率和逾期率。在合理逾期率的前提下，尽可能提高通过率。

A卡：更注重通过率，逾期率可以稍微低一些；
B卡：想办法降低逾期率，给好的用户提高额度。

2、逻辑回归模型构建

逻辑回归本质上还是一个回归问题，它的输出结果是[0,1]之间，那么这个结果可以对应到用户的违约概率上，我们可以将违约概率映射到评分上。
例如：
业内标准的评分卡换算公式 $score = 650+50log_{2}(P_{逾期}/P_{未逾期})$ ，那么这里怎么转化过去呢？我们来看以下的Sigmoid函数：
$\frac{1}{1+e^{-z}} = \frac{1}{1+e^{-(w^Tx+b)}}$
可以转化为以下公式：
$ln(y1−y)=wTx+bln(\frac{y}{1-y})=w^Tx+b$
而我们评分换算公式可以进行以下变换：
$log2(P逾期/P未逾期)=ln(P逾期1−P逾期)/ln(2)=(wTx+b)/ln(2)log_{2}(P_{逾期}/P_{未逾期}) = ln(\frac{P_{逾期}}{1-P_{逾期}})/ln(2) = (w^Tx+b)/ln(2)$