
一、过滤法(Filter)
过滤法选择是一种与模型无关的变量选择方法,从变量的预测能力及对标签的区分能力考虑,常用指标有信息增益、信息增益比、基尼系数、IV值等。
1. 数据缺失情况变量筛选
删除缺失比例过高的变量。
2. 方差变量筛选
3. 预测能力变量筛选
常用指标:信息增益,信息增益比,基尼系数,卡方值等。
4. 基于业务理解的变量筛选(IV值,PSI值)
IV值是从类别角度考虑的,坏样本分布和好样本分布,反映输入变量对标签的预测能力,越大越好。
I V = ∑ i M ( b a d i / b a d t o t a l − g o o d i / g o o d t o t a l ) log ( b a d i / b a d t o t a l g o o d i / g o o d t o t a l ) = ∑ i M ( b a d i / b a d t o t a l − g o o d i / g o o d t o t a l ) W O E i \begin{aligned} IV &=\sum_i^M (bad_i/bad_{total}-good_i/good_{total})\log (\frac{bad_i/bad_{total}}{good_i/good_{total}}) \\ &=\sum_i^M (bad_i/bad_{total}-good_i/good_{total})WOE_i \end{aligned} IV=i∑M(badi/badtotal−goodi/goodtotal)log(good