Python构建xgboost模型-特征分箱、WOE转换、IV值计算

原创

已于 2024-01-21 21:10:46 修改 · 2.2k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言

于 2024-01-21 17:04:37 首次发布

构建机器学习模型时（尤其是逻辑回归），一般都会对连续型特征进行特征分箱，特征分箱优点有：

1、分箱后的特征对异常数据有更强的鲁棒性。如入模特征异常大时，分箱后只是作为一个类别入模，如果将值直接入模，则会对模型造成较大的干扰。

2、可以处理缺失值，将缺失值直接作为一个类别放入模型当中。

3、特征离散化后可以起到简化模型的作用，降低模型的过拟合作用。

4、特征离散化之后，每个变量有单独的权重，可以为逻辑回归模型引入了非线性，能够提升模型表达能力，加大拟合。

如何对连续型入模特征进行分箱

1、无监督中的等频、等距分箱

2、有监督的 $\chi ^{2}$ 分箱

代码事例

# 计算卡方值函数
def chi3(arr):
    '''
    计算卡方值
    arr:频数统计表,二维numpy数组。
    '''
    assert(arr.ndim==2)
    #计算每行总频数
    R_N = arr.sum(axis=1)
    #每列总频数
    C_N = arr.sum(axis=0)
    #总频数
    N = arr.sum()
    # 计算期望频数 C_i * R_j / N。
    E = np.ones(arr.shape)* C_N / N
    E = (E.T * R_N).T
    square = (arr-E)**2 / E
    #期望频数为0时，做除数没有意义，不计入卡方值
    square[E==0] = 0
    #卡方值
    v = square.sum()
    return v


# 确定卡方分箱点
def chiMerge(df,col,target,max_groups=None,threshold=None):

    '''
    卡方分箱
    df: pandas dataframe数据集
    col: 需要分箱的变量名（数值型）
    target: 类标签
    max_groups: 最大分组数。
    threshold: 卡方阈值，如果未指定max_groups，默认使用置信度95%设置threshold。
    return: 包括各组的起始值的列表.
    '''

    freq_tab = pd.crosstab(df[col],df[target])

    #转成numpy数组用于计算。
    freq = freq_tab.values

    #初始分组切分点，每个变量值都是切分点。每组中只包含一个变量值.

    #分组区间是左闭右开的，如cutoffs = [1,2,3]，则表示区间 [1,2) , [2,3) ,[3,3+)。
    cutoffs = freq_tab.index.values

    #如果没有指定最大分组
    if max_groups is None:    
        #如果没有指定卡方阈值，就以95%的置信度（自由度为类数目-1）设定阈值。
        if threshold is None:
            #类数目
            cls_num = freq.shape[-1]
            threshold = chi2.isf(0.05,df= cls_num - 1)

    while True:
        minvalue = None
        minidx = None
        #从第1组开始，依次取两组计算卡方值，并判断是否小于当前最小的卡方
        for i in range(len(freq) - 1):
            v = chi3(freq[i:i+2])
            if minvalue is None or (minvalue > v): #小于当前最小卡方，更新最小值
                minvalue = v
                minidx = i

        #如果最小卡方值小于阈值，则合并最小卡方值的相邻两组，并继续循环
        if  (max_groups i