不平衡分类中的过采样与欠采样方法
1. 随机采样概述
在处理不平衡分类问题时,数据采样是一种有效的策略。随机采样是一种简单的重新平衡不平衡数据集类别分布的技术,主要有随机过采样和随机欠采样两种方法。
1.1 随机过采样
随机过采样是通过随机复制少数类的示例并将其添加到训练数据集中,以达到平衡类别分布的目的。这种方法适用于受数据分布偏斜影响的机器学习算法,如使用随机梯度下降的人工神经网络、支持向量机和决策树等。
不过,随机过采样也存在一些问题。过度追求平衡分布可能导致模型对少数类过拟合,增加泛化误差,即在训练集上表现良好,但在测试集上表现不佳。同时,增加少数类示例的数量会显著增加模型拟合的计算成本。
1.2 随机欠采样
随机欠采样则是随机删除多数类的示例,以减少训练数据集中多数类的数量。这种方法适用于少数类有足够示例的数据集。但它的局限性在于可能会删除对模型拟合决策边界有用的重要信息,从而导致分类性能下降。
2. 随机过采样的实现
2.1 定义过采样策略
可以使用 RandomOverSampler 类来实现随机过采样。该类接受一个 sampling_strategy 参数,可设置为 'minority' 以自动平衡少数类与多数类的数量,也可以指定一个浮点值来表示少数类与多数类示例的期望比例。
# define oversampling strategy
oversample =
超级会员免费看
订阅专栏 解锁全文

3万+

被折叠的 条评论
为什么被折叠?



