高维不平衡分类中的过采样与模糊员工班车路由问题研究
1. 高维不平衡分类中的过采样方法
在机器学习的分类问题中,类别不平衡是一个常见且棘手的问题,它广泛存在于文本分类、欺诈检测、客户流失预测和医学诊断等众多领域。当一个类别(少数类)的实例数量远低于另一个类别时,就会出现这种不平衡。为了解决这个问题,过采样是一种常用的策略,其中最著名的就是合成少数过采样技术(SMOTE)。
SMOTE 使用 K - 最近邻(KNN)算法在少数类中生成新的人工实例。然而,对于高维数据,SMOTE 存在一些局限性:
- 特征冗余 :过采样可能会增加冗余或无关特征的数量,从而降低分类器的性能。因为 SMOTE 生成的合成样本基于现有特征,可能会继承相同的无关或噪声特征。
- 过拟合风险 :SMOTE 通过在现有样本之间进行插值来生成合成样本,这可能导致特征空间中某些区域的过度表示,在高维数据中这种情况可能会更加严重。
- 计算成本高 :高维数据中特征组合的数量呈指数级增长,这使得生成足够数量的合成样本以平衡少数类的分布变得困难,并且计算成本高昂。
- 距离度量问题 :SMOTE 使用经典的欧几里得距离度量来计算邻居,在高维情况下,很多实例可能具有相同的距离,导致插值效果不佳。
- 过度泛化 :该方法忽略了多数类,可能会在多数类上创建合成样本,从而增加类重叠。
为了克服这些问题,研究人员提出了基于 Ledoit - Wolf 方法估计的稀疏逆协方差矩阵的过采样策略。以下
超级会员免费看
订阅专栏 解锁全文
920

被折叠的 条评论
为什么被折叠?



