不平衡分类中的过采样、欠采样与成本敏感学习
1. 过采样与欠采样技术结合
在不平衡分类问题中,结合过采样和欠采样技术是一种有效的方法。以下是一个评估 SMOTEENN 策略与分类模型的示例代码:
resample = SMOTEENN()
# define pipeline
pipeline = Pipeline(steps=[('r', resample), ('m', model)])
# define evaluation procedure
cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)
# evaluate model
scores = cross_val_score(pipeline, X, y, scoring='roc_auc', cv=cv, n_jobs=-1)
# summarize performance
print('Mean ROC AUC: %.3f' % mean(scores))
运行该示例代码会评估转换系统和模型,并将性能总结为平均 ROC AUC。在这个例子中,与使用随机欠采样方法的 SMOTE 相比,性能从约 0.81 提升到了约 0.85,平均 ROC AUC 为 0.856。这表明编辑过采样的少数类可能是一个容易被忽视的重要考虑因素。
1.1 进一步阅读资源
如果你想深入了解相关内容,以下是一些资源:
- 论文 :
-
超级会员免费看
订阅专栏 解锁全文
2291

被折叠的 条评论
为什么被折叠?



