KS值和GINI系数

有效性指标中的区分能力指标:

KS(Kolmogorov-Smirnov):KS用于模型风险区分能力进行评估, 
指标衡量的是好坏样本累计分部之间的差值。 
好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强。

KS的计算步骤如下: 
1. 计算每个评分区间的好坏账户数。 
2. 计算每个评分区间的累计好账户数占总好账户数比率(good%)和累计坏账户数占总坏账户数比率(bad%)。 
3. 计算每个评分区间累计坏账户占比与累计好账户占比差的绝对值(累计good%-累计bad%),然后对这些绝对值取最大值即得此评分卡的K-S值。

è¿éåå¾çæè¿°

·GINI系数:也是用于模型风险区分能力进行评估。 
GINI统计值衡量坏账户数在好账户数上的的累积分布与随机分布曲线之间的面积,好账户与坏账户分布之间的差异越大,GINI指标越高,表明模型的风险区分能力越强。

GINI系数的计算步骤如下: 
1. 计算每个评分区间的好坏账户数。 
2. 计算每个评分区间的累计好账户数占总好账户数比率(累计good%)和累计坏账户数占总坏账户数比率(累计bad%)。 
3. 按照累计好账户占比和累计坏账户占比得出下图所示曲线ADC。 
4. 计算出图中阴影部分面积,阴影面积占直角三角形ABC面积的百分比,即为GINI系数。

è¿éåå¾çæè¿°

### 金融风控中的KS计算 KS(Kolmogorov-Smirnov Statistic)是一种用于衡量模型区分能力的重要指标,在金融风控领域常被用来评估信用评分模型的效果。它通过比较正负样本分布之间的最大差异来反映模型的区分度。 #### KS的定义与公式 KS的核心在于计算累积分布函数(CDF)的最大差。假设我们有一个预测概率列表 `prob` 对应的标签列表 `label`,其中 `label=1` 表示正类(如违约),`label=0` 表示负类(如未违约)。那么: - 正类的概率累积分布记为 \( F_+(p) \),表示分数小于等于某个阈的比例; - 负类的概率累积分布记为 \( F_-(p) \),同样表示分数小于等于某个阈的比例; KS可以定义为这两个分布之间绝对差的最大: \[ KS = \max |F_+(p) - F_-(p)| \] --- #### Python实现KS计算 以下是基于Python实现KS的具体代码示例,利用了Toad库的功能[^1]: ```python import numpy as np from sklearn.model_selection import train_test_split from toad.metrics import KS_bucket # 假设 prob_off 是模型输出的概率,offy 是真实标签 np.random.seed(42) prob_off = np.random.rand(1000) # 示例:生成随机概率 offy = np.where(prob_off > 0.5, 1, 0) # 示例:生成二分类标签 # 使用 Toad 的 KS_bucket 函数计算分箱后的 KS ks_result = KS_bucket(prob_off, offy, bucket=15, method='quantile') print("KS Value:", ks_result['KS'].max()) # 输出最大的 KS ``` 上述代码中,`bucket=15` 参数指定了将数据分为15个区间进行分析,而 `method='quantile'` 则采用百分位数法进行分组。 --- #### 数据划分与训练测试集准备 为了确保KS能够有效评估模型性能,通常需要先对数据进行合理的划分。以下是一个简单的例子,展示如何使用随机抽样的方式分割数据[^3]: ```python from sklearn.model_selection import train_test_split # dt_s 是原始数据框,“creditability”为目标变量 train, test = train_test_split(dt_s, test_size=0.3, random_state=42) # 进一步分离特征目标列 X_train, y_train = train.drop(columns=["creditability"]), train["creditability"] X_test, y_test = test.drop(columns=["creditability"]), test["creditability"] # 可以在此基础上构建并评估模型 ``` --- #### 模型评估方法概述 在金融风控建模过程中,除了KS之外,还有其他常用的评估指标,例如AUC、Gini系数等。这些指标共同构成了全面评价模型效果的基础框架[^2]。具体来说: - **AUC (Area Under Curve)**: ROC曲线下的面积,反映了模型的整体表现。 - **Gini Coefficient**: AUC的一种变形形式,强调模型对于不同群体的区分能力。 - **PSI (Population Stability Index)**: 测量实际数据分布相对于预期的变化程度。 以上各项均需结合业务场景综合考量,从而得出最优解。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值