一、过采样
1.定义
- 在数据处理领域,过采样是指在不平衡数据集中,通过增加少数类样本的数量来平衡各类别之间的样本数。
2.方法
- 数据处理中的过采样可以通过复制少数类样本或使用算法(如SMOTE)生成新的少数类样本来实现。
3.应用
- 数据处理:用于解决不平衡数据集问题,避免模型对多数类的偏见。
二、欠采样
1.定义
- 在数据处理领域,欠采样是通过减少多数类样本的数量来平衡类别。
2.方法
- 数据处理中的欠采样可以通过随机删除多数类中的一些样本或使用聚类算法选择代表性样本来实现。
3.应用
- 数据处理:用于处理不平衡数据集,降低计算成本和提高模型的训练效率。