不平衡分类的成本敏感模型调优
在不平衡分类问题中,传统的机器学习算法往往表现不佳。本文将介绍如何通过网格搜索来调整加权逻辑回归和加权决策树的类别权重,以提高模型在不平衡数据集上的性能。
1. 网格搜索加权逻辑回归
在不平衡分类中,使用训练数据的逆比例作为类别权重只是一种启发式方法。可能通过不同的类别权重配置可以获得更好的性能,这也取决于用于评估模型的性能指标。下面我们将对加权逻辑回归的不同类别权重进行网格搜索,以找到具有最佳 ROC AUC 分数的配置。
1.1 定义网格搜索的类别权重
我们将尝试以下类别 0 和类别 1 的权重配置:
- 类别 0: 100,类别 1: 1
- 类别 0: 10,类别 1: 1
- 类别 0: 1,类别 1: 1
- 类别 0: 1,类别 1: 10
- 类别 0: 1,类别 1: 100
这些权重可以定义为 GridSearchCV 类的网格搜索参数:
# define grid
balance = [{0:100,1:1}, {0:10,1:1}, {0:1,1:1}, {0:1,1:10}, {0:1,1:100}]
param_grid = dict(class_weight=balance)
1.2 执行网格搜索
使用重复交叉验证对这些参数进行网格搜索,并使用 ROC AUC 评估模型性能:
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



