在评分卡模型的开发中,连续型变量需要进行分箱操作才能放入模型当中。
分箱操作的定义如下:
-
数值型变量
将其分为若干有限的几个分段,例如,将收入分为:收入≤5k,5k<收入≤10k, 10k<收入≤20k,收入>20k -
类别型变量
如果取值个数很多,将其合并为个数较少的几个分段,例如,将省份分为{北京、上海、广州},{成都、重庆、湖南},{黑龙江、吉林、辽宁},其他
1、等距分箱法
import numpy as np
import pandas as pd
from pandas import DataFrame
np.random.seed(1) #随机数生成器种子
income_list = np.random.randint(3, 50, size=100)
print(income_list)
k = 5 # 设置分为5个区间
#等距分箱法
income_cut = pd.cut(income_list, k)
print(type(income_cut)