评分卡模型(Scorecard Model)及其特征工程(分箱(Binning)和证据权重WOE)

一、证据权重WOE(Weight of Evidence)

**WOE(Weight of Evidence,证据权重)**是一种用于衡量某个特征的分箱(Binning)中好坏样本分布差异的指标。它常用于信用评分模型和风险管理中,帮助评估特征对目标变量的预测能力。


1. WOE的定义

WOE的计算公式如下:
W O E = ln ⁡ ( 好样本比例 坏样本比例 ) WOE = \ln\left(\frac{\text{好样本比例}}{\text{坏样本比例}}\right) WOE=ln(坏样本比例好样本比例)
其中:

  • 好样本比例 = 该分箱中好样本数 / 总好样本数
  • 坏样本比例 = 该分箱中坏样本数 / 总坏样本数

WOE的值反映了某个分箱中好坏样本的分布差异:

  • WOE为正:该分箱中好样本比例高于坏样本比例。
  • WOE为负:该分箱中坏样本比例高于好样本比例。
  • WOE为零:该分箱中好坏样本比例相等。

2. WOE的计算步骤

以下是一个计算WOE的示例:

2.1 数据准备

假设有一个特征“年龄”,数据分箱如下:

年龄区间 好样本数 坏样本数 总好样本数 总坏样本数
20-30 100 20 500 100
30-40 200 30 500 100
40-50 150 40 500 100
50+ 50 10 500 100
2.2 计算好样本比例和坏样本比例
  • 好样本比例 = 该分箱中好样本数 / 总好样本数
  • 坏样本比例 = 该分箱中坏样本数 / 总坏样本数
年龄区间 好样本比例 坏样本比例
20-30 100/500 = 0.2 20/100 = 0.2
30-40 200/500 = 0.4 30/100 = 0.3
40-50 150/500 = 0.3 40/100 = 0.4
50+ 50/500 = 0.1 10/100 = 0.1
2.3 计算WOE

使用公式计算每个分箱的WOE:
W O E = ln ⁡ ( 好样本比例 坏样本比例 ) WOE = \ln\left(\frac{\text{好样本比例}}{\text{坏样本比例}}\right) WOE=ln(坏样本比例好样本比例)

年龄区间 好样本比例 坏样本比例 WOE
20-30 0.2 0.2 ln ⁡ ( 0.2 / 0.2 ) = 0 \ln(0.2/0.2) = 0 ln(0.2/0.2)=0
30-40 0.4 0.3 ln ⁡ ( 0.4 / 0.3 ) =
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值