数据不均衡是指在数据集中不同类别的样本数量差异较大,这可能会导致模型在训练和预测过程中对少数类样本的识别能力不足。数据重采样是一种常用的处理方法,可以通过增加少数类样本或减少多数类样本来平衡数据集,从而提高模型的性能。
常用的数据重采样方法有:过采样,欠采样和混合采样三种
目录
一:过采样(Oversampling)
通过复制少数类样本来增加其数量,使得少数类样本与多数类样本数量相近。常见的过采样方法包括随机过采样、SMOTE(Synthetic Minority Over-sampling Technique)和 ADASYN(Adaptive Synthetic Sampling)等。
# 使用sklearn.datasets库生成不均衡数据集
from sklearn.datasets import make_classification
from collections import Counter
X, y =
订阅专栏 解锁全文
1963

被折叠的 条评论
为什么被折叠?



