处理不平衡数据集的欠采样方法详解
在处理不平衡数据集时,从多数类中选择示例进行删除是一种常见的策略。本文将详细介绍几种选择删除示例的方法,以及它们的组合应用。
1. 选择删除示例的方法
1.1 Tomek Links 欠采样方法
Tomek Links 是对 Condensed Nearest Neighbor Rule(CNN)的改进。CNN 随机选择样本,可能会保留不必要的样本以及分布内部而非边界的样本。而 Tomek Links 可以找到跨类别的最近邻对,这些对定义了类边界。
如果两个实例 a 和 b 满足以下条件,则它们构成一个 Tomek Link:
1. 实例 a 的最近邻是 b;
2. 实例 b 的最近邻是 a;
3. 实例 a 和 b 属于不同的类。
这些跨类对现在通常被称为 Tomek Links,它们在定义类边界方面很有价值。通过固定少数类的示例,可以找到多数类中最接近少数类的示例并将其删除,这些就是模糊示例。
可以使用 imblearn 库中的 TomekLinks 类来实现 Tomek Links 欠采样方法:
# define the undersampling method
undersample = TomekLinks()
以下是一个完整的示例,展示了如何使用 Tomek Links 对不平衡数据集进行欠采样:
欠采样方法处理不平衡数据集详解
超级会员免费看
订阅专栏 解锁全文
3万+

被折叠的 条评论
为什么被折叠?



