17、不平衡分类中的过采样、欠采样与成本敏感学习

最新推荐文章于 2025-09-21 16:13:22 发布

linux6sysadmin

最新推荐文章于 2025-09-21 16:13:22 发布

阅读量38

点赞数

CC 4.0 BY-SA版权

分类专栏：破解不平衡分类难题文章标签：不平衡分类过采样欠采样

本文链接：https://blog.youkuaiyun.com/linux6sysadmin/article/details/151574436

破解不平衡分类难题专栏收录该内容

37 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

不平衡分类中的过采样、欠采样与成本敏感学习

1. 过采样与欠采样技术结合

在不平衡分类问题中，结合过采样和欠采样技术是一种有效的方法。以下是一个评估 SMOTEENN 策略与分类模型的示例代码：

resample = SMOTEENN()
# define pipeline
pipeline = Pipeline(steps=[('r', resample), ('m', model)])
# define evaluation procedure
cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)
# evaluate model
scores = cross_val_score(pipeline, X, y, scoring='roc_auc', cv=cv, n_jobs=-1)
# summarize performance
print('Mean ROC AUC: %.3f' % mean(scores))

运行该示例代码会评估转换系统和模型，并将性能总结为平均 ROC AUC。在这个例子中，与使用随机欠采样方法的 SMOTE 相比，性能从约 0.81 提升到了约 0.85，平均 ROC AUC 为 0.856。这表明编辑过采样的少数类可能是一个容易被忽视的重要考虑因素。