核心功能
woebin 是信用评分卡开发中的核心工具,主要用于:
- 对数值型、分类型特征进行最优分箱(将特征划分为若干区间);
- 计算每个分箱的 WOE(证据权重) 和 IV(信息值);
- 支持自定义分箱规则,兼顾算法最优性和业务可解释性。
参数详解
基础参数
dt: pandas DataFrame,包含特征(x)和目标变量(y)的数据集。y:字符串,目标变量的列名(如 "违约"、"坏账"),需为二元变量(通常 0/1 或 "好"/"坏")。x:列表,需要分箱的特征名称列表。默认None,表示对所有非目标变量分箱。var_skip:列表,需要跳过分箱的特征名称,默认None。
分箱规则参数
breaks_list:字典,自定义分箱断点。例如:
表示将breaks_list = {'age': [20, 30, 40], 'income': [5000, 10000]}age分为 [20,30)、[30,40) 等区间。special_values:字典,指定需要单独作为分箱的特殊值(如缺失值、异常值)。例如:special_values = {'income': [-1, 'missing']}

最低0.47元/天 解锁文章
631

被折叠的 条评论
为什么被折叠?



