一、证据权重WOE(Weight of Evidence)
**WOE(Weight of Evidence,证据权重)**是一种用于衡量某个特征的分箱(Binning)中好坏样本分布差异的指标。它常用于信用评分模型和风险管理中,帮助评估特征对目标变量的预测能力。
1. WOE的定义
WOE的计算公式如下:
W O E = ln ( 好样本比例 坏样本比例 ) WOE = \ln\left(\frac{\text{好样本比例}}{\text{坏样本比例}}\right) WOE=ln(坏样本比例好样本比例)
其中:
- 好样本比例 = 该分箱中好样本数 / 总好样本数
- 坏样本比例 = 该分箱中坏样本数 / 总坏样本数
WOE的值反映了某个分箱中好坏样本的分布差异:
- WOE为正:该分箱中好样本比例高于坏样本比例。
- WOE为负:该分箱中坏样本比例高于好样本比例。
- WOE为零:该分箱中好坏样本比例相等。
2. WOE的计算步骤
以下是一个计算WOE的示例:
2.1 数据准备
假设有一个特征“年龄”,数据分箱如下:
年龄区间 | 好样本数 | 坏样本数 | 总好样本数 | 总坏样本数 |
---|---|---|---|---|
20-30 | 100 | 20 | 500 | 100 |
30-40 | 200 | 30 | 500 | 100 |
40-50 | 150 | 40 | 500 | 100 |
50+ | 50 | 10 | 500 | 100 |
2.2 计算好样本比例和坏样本比例
- 好样本比例 = 该分箱中好样本数 / 总好样本数
- 坏样本比例 = 该分箱中坏样本数 / 总坏样本数
年龄区间 | 好样本比例 | 坏样本比例 |
---|---|---|
20-30 | 100/500 = 0.2 | 20/100 = 0.2 |
30-40 | 200/500 = 0.4 | 30/100 = 0.3 |
40-50 | 150/500 = 0.3 | 40/100 = 0.4 |
50+ | 50/500 = 0.1 | 10/100 = 0.1 |
2.3 计算WOE
使用公式计算每个分箱的WOE:
W O E = ln ( 好样本比例 坏样本比例 ) WOE = \ln\left(\frac{\text{好样本比例}}{\text{坏样本比例}}\right) WOE=ln(坏样本比例好样本比例)
年龄区间 | 好样本比例 | 坏样本比例 | WOE |
---|---|---|---|
20-30 | 0.2 | 0.2 | ln ( 0.2 / 0.2 ) = 0 \ln(0.2/0.2) = 0 ln(0.2/0.2)=0 |
30-40 | 0.4 | 0.3 | ln ( 0.4 / 0.3 ) = |