解决不平衡分类问题:SMOTE及其扩展技术
1. 不平衡分类问题与SMOTE技术
在不平衡分类问题中,少数类的样本数量过少,导致模型难以有效学习决策边界。解决这个问题的一种方法是对少数类样本进行过采样。简单地复制少数类样本可以平衡类分布,但不会为模型提供额外信息。更好的方法是合成新的少数类样本,这是一种表格数据的数据增强方法,效果显著。
1.1 SMOTE技术原理
合成少数类过采样技术(Synthetic Minority Oversampling Technique,简称SMOTE)是最广泛使用的合成新样本的方法。其工作原理如下:
1. 随机选择一个少数类样本。
2. 找到该样本的k个最近邻(通常k = 5)。
3. 随机选择一个最近邻,在这两个样本之间的特征空间中随机选择一个点,创建一个合成样本。
SMOTE可以根据需要为少数类创建任意数量的合成样本。论文建议先使用随机欠采样来减少多数类的样本数量,然后使用SMOTE对少数类进行过采样,以平衡类分布。SMOTE与欠采样的结合比单纯的欠采样效果更好。
1.2 SMOTE技术的优缺点
优点:
- 创建的新合成样本合理,在特征空间中与现有的少数类样本相对接近。
- 使分类器构建更大的决策区域,包含附近的少数类点。
缺点:
- 创建合成样本时不考虑多数类,可能导致类重叠严重时出现模糊样本。
2. SMOTE平衡数据示例
2.1 创建不平衡数据集
我们可以使用 make_classification() 函数创建一个包
超级会员免费看
订阅专栏 解锁全文

31

被折叠的 条评论
为什么被折叠?



