信用行业消费者风险预测与分类评估方法解析
一、信用行业现状与建模需求
消费者信贷产品的普及对信贷机构而言,既是机遇也是挑战。过去几十年,美国消费者金融产品如信用卡、抵押贷款等迅速增长,1980 年未偿还的无担保循环消费信贷为 551 亿美元,到 2000 年已升至 6332 亿美元。然而,同期每 1000 户美国家庭的破产申请数量从 1 起增至 5 起。
为了吸引、管理和留住盈利客户,同时降低潜在亏损客户的风险,信贷机构越来越依赖建模来实现客户关系管理(CRM)。CRM 的一般框架涵盖产品规划、客户获取、客户管理以及催收与回收等环节,预测模型在 CRM 的各个阶段都有广泛应用:
-
客户获取
:通过模型驱动的目标营销,利用信用局文件和公司数据库中的潜在客户数据,预测客户对邀约的响应可能性和违约可能性。
-
客户管理
:基于客户交易历史开发行为模型,预测客户违约或流失的可能性,以便合理分配资源用于客户激励计划或提高信用额度。
-
催收与回收
:开发模型预测逾期客户的还款可能性。
二、常见建模技术
建模技术大致可分为统计和非统计两类,以下介绍三种常见技术:
2.1 线性判别分析(LDA)
LDA 起源于 Fisher(1936)提出的判别方法,它依赖于多元正态性、预测变量独立性和线性可分性等假设,因此适用性受到一定限制。不过,在信贷应用中常见的协方差矩阵不等和数据非正态性,可能并非该技术的关键限制因素。尽管简单,但 LDA 在实践中仍被广泛使用。
2.2 逻辑回归分析
逻辑回归分析是初始信贷决策中最常用的建模技术。对于二元分类问题(如预测“好”与“坏”信用风险),逻辑分析将描述变量进行线性组合,并将结果转换为 0 到 1 之间的概率。
2.3 神经网络建模
神经网络分类是一种非统计技术,得益于桌面计算能力的提升而发展起来。尽管神经网络起源于对人类大脑处理功能的模拟,但目前使用的模型更多地考虑了数学便利性。神经网络在金融等多个领域广泛应用,包括消费者风险预测。研究表明,神经网络在某些情况下优于其他技术,但并非始终如此。
| 建模技术 | 起源 | 特点 | 局限性 |
|---|---|---|---|
| 线性判别分析(LDA) | Fisher(1936)提出的判别方法 | 依赖多元正态性、预测变量独立性和线性可分性假设,简单且应用广泛 | 假设限制适用性 |
| 逻辑回归分析 | - | 常用于初始信贷决策,将描述变量线性组合转换为概率 | - |
| 神经网络建模 | 模拟人类大脑处理功能 | 非统计技术,应用广泛 | 缺乏明确的开发指导原则 |
三、模型评估方法
3.1 评估的重要性
建模技术的核心目标是提高预测准确性,在客户风险分类中,即使预测准确性有微小提升,也可能带来显著的成本节约。然而,分析师如何判断一个模型是否优于另一个模型,这取决于所选择的评估方法。
3.2 二元分类模型的可能结果
在预测二元分类模型中,可能出现四种结果:
1.
真阳性
:如将“好”信用风险分类为“好”。
2.
假阳性
:如将“坏”信用风险分类为“好”。
3.
真阴性
:如将“坏”信用风险分类为“坏”。
4.
假阴性
:如将“好”信用风险分类为“坏”。
3.3 常见评估方法
3.3.1 全局分类率
如果错误分类的成本已知且相等,全局分类率是一种合适的评估方法。它通过计算正确分类的比例来评估模型。例如,一个假设的分类模型的混淆矩阵如下:
| | 真实“好” | 真实“坏” | 总计 |
| — | — | — | — |
| 预测“好” | 650 | 50 | 700 |
| 预测“坏” | 200 | 100 | 300 |
| 总计 | 850 | 150 | 1000 |
该模型的全局分类率为 75%(650/1000 + 100/1000)。然而,全局分类率在评估处理罕见事件的模型时存在问题,因为它可能无法捕捉到罕见事件准确分类的难度。
3.3.2 柯尔莫哥洛夫 - 斯米尔诺夫检验(K - S 检验)
K - S 检验测量两个分类(如“好”和“坏”信用风险)的分布函数之间的距离,产生最大分离度的分数被视为接受或拒绝信贷申请的阈值。例如,在一个示例中,当分数约为 0.7 时,两个分布函数的分离度最大,此时约 80%的“好”申请人会被接受,而只有 35%的“坏”申请人会被接受,K - S 检验结果为 45%(80% - 35%)。但 K - S 检验假设错误分类的相对成本相等,未考虑分类模型的相关性能信息。
3.3.3 受试者工作特征曲线(ROC 曲线)
ROC 曲线将模型的灵敏度(真阳性)绘制在纵轴上,将 1 - 特异性(假阳性)绘制在横轴上,形成一条从 45 度线上升到左上角的曲线。曲线越弯曲且越接近左上角,模型的准确性越高。ROC 曲线下的面积(T)可用于比较不同的预测二元分类模型,当分析师或决策者对分类错误的成本或严重程度一无所知时,T 是一个合适的评估指标。例如,随机分配观察值到两个类别时,ROC 曲线将遵循从原点出发的 45 度线,对应 T = 0.5;完美的二元分类对应 T = 1。T 可以看作是对所有可能分类阈值下错误分类率的平均,其解释为:使用该模型,一个真正“好”的信用风险得分高于一个“坏”的信用风险的概率。公式表示为:
[T = \int F(p|0)dF(p|1)dp]
其中,(F(p|0)) 是分配到“坏”信用风险类别的概率分布,(F(p|1)) 是分配到“好”信用风险类别的概率分布。
ROC 曲线的优点在于它综合了所有可能的错误分类严重程度,但这也是其最大的局限,因为在某些情况下,并非所有场景都相关。
四、研究方法
4.1 数据集
使用包含 14,042 名美国汽车贷款申请人的真实数据集,数据涵盖 1998 年 6 月 1 日至 1999 年 6 月 30 日的申请信息,每个申请包含 65 个变量,可分为个人数据和交易数据两类。根据 1999 年 12 月 31 日账户是否被冲销,将 9,442 名申请人视为“好”信用风险,4,600 名申请人视为“坏”信用风险。
4.2 数据处理
对每个变量与二元因变量(信用价值)的关系进行检查,发现大多数关系是非线性的。为了减少这种非线性对传统统计模型分类准确性的影响,将每个连续和分类变量转换为多个虚拟变量。
4.3 模型开发
- LDA 和逻辑回归分析模型 :使用 SAS 系统(v. 8.2)开发,在分析前将数据分为建模文件(80%)和验证文件(20%)。
- 神经网络模型 :使用基本的 MLP 网络模型,输入与 LDA 和逻辑回归模型相同的预测变量。由于神经网络模型的开发缺乏明确的指导原则,通过实验确定最佳网络。尝试了 10 种不同数量的隐藏节点(从 5 到 50,步长为 5),使用 Backpack® v. 4.0 进行开发。将原始建模文件进一步分为训练文件(60%)和测试文件(20%),为了减少陷入局部解的可能性,对网络进行 100 次测试,每次测试使用大小为 12 的时期(epoch),并在测试之间进行 200 个时期的训练。使用与前两个模型相同的验证文件对神经网络进行验证。
graph LR
classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A([数据集]):::startend --> B(数据处理):::process
B --> C(模型开发):::process
C --> D{LDA和逻辑回归分析模型}:::process
C --> E{神经网络模型}:::process
D --> F(使用SAS系统开发):::process
E --> G(使用Backpack®开发):::process
F --> H(建模文件80%、验证文件20%):::process
G --> I(训练文件60%、测试文件20%、验证文件20%):::process
五、研究结果
不同建模技术使用三种模型评估方法的验证结果总结如下表:
| 建模技术 | 分类率 - “好” | 分类率 - “坏” | 总体分类率 | ROC 曲线下面积(T) | K - S 检验 |
|---|---|---|---|---|---|
| 线性判别分析(LDA) | 73.91% | 43.40% | 59.74% | 68.98% | 19% |
| 逻辑回归 | 70.54% | 59.64% | 69.45% | 68.00% | 24% |
| 神经网络 - 5 隐藏节点 | 63.50% | 56.50% | 58.88% | 63.59% | 38% |
| 神经网络 - 10 隐藏节点 | 75.40% | 44.50% | 55.07% | 64.46% | 11% |
| 神经网络 - 15 隐藏节点 | 60.10% | 62.10% | 61.40% | 65.89% | 24% |
| 神经网络 - 20 隐藏节点 | 62.70% | 59.00% | 60.29% | 65.27% | 24% |
| 神经网络 - 25 隐藏节点 | 76.60% | 41.90% | 53.78% | 63.55% | 16% |
| 神经网络 - 30 隐藏节点 | 52.70% | 68.50% | 63.13% | 65.74% | 22% |
| 神经网络 - 35 隐藏节点 | 60.30% | 59.00% | 59.46% | 63.30% | 22% |
| 神经网络 - 40 隐藏节点 | 62.40% | 58.30% | 59.71% | 64.47% | 17% |
| 神经网络 - 45 隐藏节点 | 54.10% | 65.20% | 61.40% | 64.50% | 31% |
| 神经网络 - 50 隐藏节点 | 53.20% | 68.50% | 63.27% | 65.15% | 37% |
从结果来看,选择“最优”模型并非简单直接,模型选择会因误分类错误成本和问题领域这两个主要因素而有所不同:
-
误分类成本相等时
:若能确定误分类成本相等,全局分类率可作为合适的评估方法。在此情况下,逻辑回归模型表现最佳,总体分类率达到 69.45%。在这种评估方法下,10 个神经网络模型中有 5 个优于传统的 LDA 技术。
-
误分类成本已知但不相等时
:如果认为假阴性错误(将真正的“好”客户分类为“坏”)的误分类成本高于假阳性错误(将真正的“坏”客户分类为“好”),那么具有 25 个隐藏节点的神经网络模型是首选,它优于两种传统统计技术。反之,如果假阳性错误的误分类成本更高,那么具有 30 或 50 个隐藏节点的神经网络模型更合适。
-
关注模型分离能力时
:若分析师最关注模型区分“好”申请人和“坏”申请人分数的能力,K - S 检验是传统的评估方法。使用此检验,具有 5 个隐藏节点的神经网络模型会被选中。
-
误分类成本信息不足时
:T 测量值代表 ROC 曲线下的面积,它综合了所有可能的误分类严重程度。在开发这 8 个模型所使用的实际问题领域(汽车贷款申请人信用价值预测)中,决策者可能对误分类成本有一定了解,因此 T 可能不是最适合的评估方法。但如果使用这些数据作为代理来对全新产品的潜在客户进行分类,且对相应的误分类成本了解较少,T 就是非常合适的评估方法。从数据集来看,如果选择 T 作为评估方法,LDA 模型会被选中,其 T 值为 68.98。对于逻辑回归模型的 T 值可以这样解释:随机选择一对“好”和“坏”观察值,69%的情况下,“好”观察值的得分会高于“坏”观察值。下图展示了 T 值最高的三个模型的 ROC 曲线比较:
graph LR
classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A([模型选择]):::startend --> B{误分类成本相等?}:::process
B -->|是| C(全局分类率评估):::process
B -->|否| D{关注分离能力?}:::process
D -->|是| E(K - S 检验评估):::process
D -->|否| F{误分类成本信息充足?}:::process
F -->|是| G(根据成本选择模型):::process
F -->|否| H(T 值评估):::process
C --> I(选择逻辑回归或神经网络):::process
E --> J(选择 5 隐藏节点神经网络):::process
G --> K(根据成本偏好选择模型):::process
H --> L(选择 LDA 模型):::process
六、讨论与总结
准确的预测建模在信贷行业的有效客户关系管理(CRM)策略执行中具有重要意义,能够正确预测信贷申请人或潜在客户的风险,对信贷机构至关重要。研究人员和分析师花费大量时间构建预测模型,旨在最小化误分类错误的隐性和显性成本。然而,目前对建模技术的重视有些失衡,实际上,选择模型评估方法至少应与选择建模技术受到同样多的关注。
本文探讨了三种常见的评估方法:分类率、柯尔莫哥洛夫 - 斯米尔诺夫统计量和 ROC 曲线。每种评估方法都可用于评估模型性能,但具体选择哪种方法取决于误分类成本信息和问题领域:
-
全局分类率
:当误分类成本被认为相等时,可使用全局分类率来评估竞争模型的相对性能。
-
K - S 检验
:在预测客户风险时,K - S 检验可基于每个类别的分布函数分离情况来评估模型,其目标是最大化“好”申请人的百分比,同时最小化“坏”申请人的百分比,但不考虑相对成本。
-
ROC 曲线
:当没有关于误分类成本的信息时,ROC 曲线和 T 测量值是最适合的评估方法。不过,由于这种方法综合了所有可能的误分类严重程度,计算中会包含许多不相关的范围。
此外,还有一种替代评估方法——LC(损失比较)指数,它假设只知道两种成本的相对严重程度,可用于在既定的相关范围内确定表现最佳的模型。但目前 LC 指数的实证应用和专门研究较少,值得进一步研究、完善和测试。
总之,没有一种模型评估方法能为研究人员、分析师或决策者提供万能解决方案。因此,理解数据背景和问题领域对于选择建模技术和模型评估方法都至关重要。
超级会员免费看
967

被折叠的 条评论
为什么被折叠?



