不平衡分类中的欠采样方法
1. 引言
在不平衡分类任务中,重采样方法旨在改变训练数据集的组成。多数采样方法的关注点在于对少数类进行过采样,但也有一系列针对多数类欠采样的技术,这些技术可与有效的过采样方法结合使用。欠采样技术类型多样,大致可分为选择保留样本的方法、选择删除样本的方法,以及结合两者的混合方法。
2. 不平衡分类中的欠采样
欠采样是一组旨在平衡具有偏斜类分布的分类数据集的技术。不平衡的类分布意味着存在一个或多个样本较少的少数类,以及一个或多个样本较多的多数类。以二分类问题为例,类 0 通常是多数类,类 1 是少数类。
欠采样技术通过从训练数据集中移除多数类的样本来更好地平衡类分布,例如将 1:100 的偏斜比例降低到 1:10、1:2 甚至 1:1。这与过采样不同,过采样是向少数类添加样本以减少类分布的偏斜。
欠采样方法可直接应用于训练数据集,然后用于拟合机器学习模型。通常,欠采样方法会与少数类的过采样技术结合使用,这种组合往往比单独使用过采样或欠采样方法能取得更好的性能。
最简单的欠采样技术是随机欠采样,即随机选择多数类的样本并从训练数据集中删除。虽然这种方法简单有效,但缺点是可能会删除对确定类间决策边界有用的信息。为了克服这一局限性,许多欠采样方法使用启发式算法来更有针对性地选择要删除或保留的样本。
下面是一个使用 scikit-learn 库的 make_classification() 函数定义一个不平衡二分类数据集的示例:
# defin
超级会员免费看
订阅专栏 解锁全文
1217

被折叠的 条评论
为什么被折叠?



